[PYTHON] Kompromisse beim Web Scraping & Crawlen

zunaechst

** Das Internet ist ein Schatz an Informationen! Lassen Sie uns Daten analysieren, indem wir Web Scraping + Crawlen voll ausnutzen! Ich denke, es gibt viele Leute, die ** </ font> dachten. Ich bin auch einer von ihnen.

Ich habe mich für Web Scraping + Crawlen entschieden, um auf einfache Weise Daten zu erhalten, z. B. zum Sammeln von Daten für das maschinelle Lernen und zum Studium der Datenwissenschaft.

Dieser Artikel fasst zusammen, was ich beim Studium von Web Scraping und Crawlen empfunden habe.

Was ist Web Scraping?

Web Scraping ist eine Technologie, die Informationen von Websites extrahiert. Insbesondere handelt es sich um eine Technologie, die ** Informationen aus HTML usw. extrahiert **. Wird verwendet, um Informationen auf Websites zu analysieren.

Wenn Sie beim Web-Scraping Webseitendaten (HTML usw.) herunterladen können, können Sie auch Informationen zu Webseiten abrufen, deren API nicht für die Öffentlichkeit zugänglich ist. Wenn Sie über die Technologie verfügen, um auf Seiten zuzugreifen, für die eine Anmeldung erforderlich ist, können Sie auch Seiten entfernen, für die eine Anmeldung erforderlich ist.

Was kriecht?

Crawling ist eine Technologie, die Website-Links crawlt, um Informationen auf Webseiten zu erhalten. Es kann regelmäßig überwacht werden, um Seitenaktualisierungen zu erkennen. Durch das Crawlen wird der Server jedoch belastet, sodass einige Dienste verboten sind und einige Dienste das Crawlen durch Bot nicht akzeptieren.

Programme, die Crawlen durchführen, werden als ** Crawler ** oder ** Spider ** bezeichnet.

Eine Sache, die Sie beim Crawlen beachten sollten, ist der ** Link-Pfad **. Beim Extrahieren des Pfads gibt es kein Problem, wenn es sich um einen absoluten Pfad zur Referenz-URL (URL der Seite, die mit dem Crawlen beginnt) handelt, aber ** Wenn es sich um einen relativen Pfad handelt, handelt es sich um eine Endlosschleife ** </ font> (Endlosschleife, wenn Seiten miteinander verknüpft sind). Normalerweise ist beim Crawlen eine Verarbeitung erforderlich, z. B. das Konvertieren des Pfads der extrahierten Verbindung in einen absoluten Pfad.

Kompromisse beim Web Scraping + Crawlen

Es ist überraschend einfach, Web Scraping und Crawlen zu studieren. In meinem Fall verwende ich Python3, daher bin ich nützlichen Bibliotheken wie ** Beautiful Soup ** und ** Scrapy ** verpflichtet.

Sobald Sie Web-Scraping und -Crawling haben, können Sie auf jede URL zugreifen und Informationen über die Links auf dieser Seite sammeln. Die gesammelten Daten enthalten jedoch viele unnötige Müllinformationen, daher müssen wir zunächst den Müll entfernen.

Verwenden Sie daher ** CSS-Selektor **, um nur die erforderlichen Informationen abzurufen. Mit dem CSS-Selektor können nur die angegebenen Informationen erfasst werden. Wenn Sie beispielsweise die verknüpfte Adresse für das Crawlen erfassen möchten, erfassen Sie nur den Wert des href-Attributs des a-Tags.

Erstellen Sie daher beim Sammeln von Informationen aus dem Internet durch Web Scraping + Crawlen ** ein Programm, das für allgemeine Zwecke verwendet werden kann, aber auch die Verarbeitung einer großen Menge von Müllinformationen erfordert ** oder ** nur die erforderlichen Informationen, aber CSS sammeln kann Sie müssen wählen, ob Sie ein Programm ** erstellen möchten, für das jedes Mal eine Selektorrecherche erforderlich ist. Wenn jemand weiß, wie man es universell einsetzt und nur die Informationen sammelt, die Sie benötigen, hinterlassen Sie bitte einen Kommentar. Wenn Sie Web Scraping + Crawlen für die Datenanalyse verwenden möchten, habe ich über den Kompromiss zwischen Web Scraping + Crawlen geschrieben, aber der ursprüngliche Zweck besteht darin, Daten zu analysieren. (Einige Leute sagen vielleicht, dass es zum Erstellen einer Suchmaschine dient ...) Wenn Sie Web Scraping + Crawlen als Datenerfassung für die Datenanalyse verwenden, können Sie entscheiden, ob die allgemeine Erfassung oder die lokale Erfassung besser ist. Ist es nicht notwendig, so zu werden? Keine der beiden Methoden ist absolut, da bei der Datenanalyse kein 100% iges Analyseergebnis vorliegt. Ich denke, Sie sollten Ihre Hände schnell bewegen und an der Analyse arbeiten, anstatt weiter darüber nachzudenken, welche Methode Sie verwenden sollen. schließlich

Hier ist eine Zusammenfassung dessen, was Sie über das Scraping und Crawlen von Websites gelernt und bemerkt haben. Ich hoffe, es wird denjenigen helfen, die Web-Scraping und Crawlen durchführen oder durchführen möchten.

Recommended Posts