** Das Internet ist ein Schatz an Informationen! Lassen Sie uns Daten analysieren, indem wir Web Scraping + Crawlen voll ausnutzen! Ich denke, es gibt viele Leute, die ** </ font> dachten. Ich bin auch einer von ihnen.
Ich habe mich für Web Scraping + Crawlen entschieden, um auf einfache Weise Daten zu erhalten, z. B. zum Sammeln von Daten für das maschinelle Lernen und zum Studium der Datenwissenschaft.
Dieser Artikel fasst zusammen, was ich beim Studium von Web Scraping und Crawlen empfunden habe.
Web Scraping ist eine Technologie, die Informationen von Websites extrahiert. Insbesondere handelt es sich um eine Technologie, die ** Informationen aus HTML usw. extrahiert **. Wird verwendet, um Informationen auf Websites zu analysieren.
Wenn Sie beim Web-Scraping Webseitendaten (HTML usw.) herunterladen können, können Sie auch Informationen zu Webseiten abrufen, deren API nicht für die Öffentlichkeit zugänglich ist. Wenn Sie über die Technologie verfügen, um auf Seiten zuzugreifen, für die eine Anmeldung erforderlich ist, können Sie auch Seiten entfernen, für die eine Anmeldung erforderlich ist.
Crawling ist eine Technologie, die Website-Links crawlt, um Informationen auf Webseiten zu erhalten. Es kann regelmäßig überwacht werden, um Seitenaktualisierungen zu erkennen. Durch das Crawlen wird der Server jedoch belastet, sodass einige Dienste verboten sind und einige Dienste das Crawlen durch Bot nicht akzeptieren.
Programme, die Crawlen durchführen, werden als ** Crawler ** oder ** Spider ** bezeichnet.
Eine Sache, die Sie beim Crawlen beachten sollten, ist der ** Link-Pfad **. Beim Extrahieren des Pfads gibt es kein Problem, wenn es sich um einen absoluten Pfad zur Referenz-URL (URL der Seite, die mit dem Crawlen beginnt) handelt, aber ** Wenn es sich um einen relativen Pfad handelt, handelt es sich um eine Endlosschleife ** </ font> (Endlosschleife, wenn Seiten miteinander verknüpft sind). Normalerweise ist beim Crawlen eine Verarbeitung erforderlich, z. B. das Konvertieren des Pfads der extrahierten Verbindung in einen absoluten Pfad.
Es ist überraschend einfach, Web Scraping und Crawlen zu studieren. In meinem Fall verwende ich Python3, daher bin ich nützlichen Bibliotheken wie ** Beautiful Soup ** und ** Scrapy ** verpflichtet.
Sobald Sie Web-Scraping und -Crawling haben, können Sie auf jede URL zugreifen und Informationen über die Links auf dieser Seite sammeln. Die gesammelten Daten enthalten jedoch viele unnötige Müllinformationen, daher müssen wir zunächst den Müll entfernen.
Verwenden Sie daher ** CSS-Selektor **, um nur die erforderlichen Informationen abzurufen. Mit dem CSS-Selektor können nur die angegebenen Informationen erfasst werden. Wenn Sie beispielsweise die verknüpfte Adresse für das Crawlen erfassen möchten, erfassen Sie nur den Wert des href-Attributs des a-Tags.
Hier ist eine Zusammenfassung dessen, was Sie über das Scraping und Crawlen von Websites gelernt und bemerkt haben. Ich hoffe, es wird denjenigen helfen, die Web-Scraping und Crawlen durchführen oder durchführen möchten.
Recommended Posts