Dies ist ein Artikel "Was ist Schaben?" Geschrieben für Anfänger (oder für mich in der Vergangenheit). Dies ist eine Übersicht für diejenigen, die versuchen werden, zu kratzen, daher hoffe ich, dass dies als Ihr erster Schritt nützlich sein wird.
"Web Scraping ist eine Computersoftwaretechnologie, die Informationen aus Websites extrahiert (Wikipedia Quelle)"
Mit anderen Worten, die Technologie, mit der die gewünschten Informationen von einer Webseite abgerufen werden, wird als "Scraping" bezeichnet.
Es gibt auch "Krabbeln", das leicht zu verwechseln ist. Dies ist "Das Programm folgt Links im Internet, um Websites und Duplikate zu besuchen und Informationen auf Webseiten zu speichern (Weblio-Wörterbuch. 82% AF% E3% 83% AD% E3% 83% BC% E3% 83% AA% E3% 83% B3% E3% 82% B0) Quelle) "
Was ist der Unterschied ...? Zusammen ...? Sie mögen denken, aber dieses Gefühl ist fast richtig. Beide Technologien dienen zum Sammeln von Informationen. Der hervorgehobene Teil ist jedoch etwas anders. Beim Scraping wird der Schwerpunkt "Nur notwendige Informationen aus Website-Informationen extrahieren (= Extraktion)" und beim Crawlen der Schwerpunkt auf "Besuchen mehrerer Websites und Sammeln von Informationen (= Sammlung)" gelegt. Es scheint zu geben. Wenn Sie also nur die Informationen erhalten möchten, die Sie beim Durchlaufen mehrerer Webseiten benötigen, müssen Sie "crawlen und kratzen". Es scheint, dass die Leute es etwas anders sehen, aber es ist in Ordnung, es als "Technologie, die sich gegenseitig ergänzt (= Sammlung und Extraktion)" zu interpretieren.
Da beim Crawlen automatisch Website-Informationen erfasst werden, kann dies in einigen Fällen gegen Urheberrechtsgesetze und Website-Richtlinien verstoßen. Seien Sie sehr vorsichtig, wenn Sie etwas untersuchen. Angenommen, Sie möchten nicht, dass Ihre Site gecrawlt wird. Es gibt verschiedene Möglichkeiten, dies zu tun, aber es ist wichtig, zuerst klar in Ihre Site-Richtlinie zu schreiben. Es kann jedoch sein, dass es von der Person, die automatisch crawlt (sogenannter Bot usw.), nicht bemerkt wird. Erstellen wir also ** robots.txt **. Wenn Sie Einstellungen schreiben, z. B. ob das Crawlen in dieser Datei zulässig ist, können Sie das Crawlen vermeiden, es sei denn, Sie sind eine böswillige Person. Als Referenzseite möchte ich "Our Howtonote" vorstellen.
Nun, ich habe den Unterschied zwischen Schaben und Krabbeln früher erklärt, aber ein guter Mensch hat das vielleicht gedacht.
"Muss ich separat kriechen und kratzen?"
Es gibt viele Frameworks zum Crawlen und Scraping, aber tatsächlich gibt es Frameworks zum Crawlen und Scraping. Das ist ** Scrapy **.
Einführung in die Referenzseite "note.nkmk.me" zur Verwendung von Scrapy. Diese Site enthält Scrapy Tutorial Erklärungen und leicht verständliche Beispiele. Wenn Sie es also ausprobieren möchten! Wenn Sie denken, beziehen Sie sich bitte darauf. (Ich habe es auch als Referenz verwendet.)
Dies ist das erste Mal, dass ich in Qiita poste. Dieses Mal habe ich es einfach gemacht als Artikel, der auch als Schreibpraxis dient. Ergänzungen / Korrekturen werden vorgenommen, wenn darauf hingewiesen wird oder wenn mein Wissen aktualisiert wird.
Recommended Posts