[PYTHON] Was ist Schaben? [Zusammenfassung für Anfänger]

Einführung

Dies ist ein Artikel "Was ist Schaben?" Geschrieben für Anfänger (oder für mich in der Vergangenheit). Dies ist eine Übersicht für diejenigen, die versuchen werden, zu kratzen, daher hoffe ich, dass dies als Ihr erster Schritt nützlich sein wird.

Was ist Schaben?

"Web Scraping ist eine Computersoftwaretechnologie, die Informationen aus Websites extrahiert (Wikipedia Quelle)"

Mit anderen Worten, die Technologie, mit der die gewünschten Informationen von einer Webseite abgerufen werden, wird als "Scraping" bezeichnet.

Es gibt auch "Krabbeln", das leicht zu verwechseln ist. Dies ist "Das Programm folgt Links im Internet, um Websites und Duplikate zu besuchen und Informationen auf Webseiten zu speichern (Weblio-Wörterbuch. 82% AF% E3% 83% AD% E3% 83% BC% E3% 83% AA% E3% 83% B3% E3% 82% B0) Quelle) "

Was ist der Unterschied ...? Zusammen ...? Sie mögen denken, aber dieses Gefühl ist fast richtig. Beide Technologien dienen zum Sammeln von Informationen. Der hervorgehobene Teil ist jedoch etwas anders. Beim Scraping wird der Schwerpunkt "Nur notwendige Informationen aus Website-Informationen extrahieren (= Extraktion)" und beim Crawlen der Schwerpunkt auf "Besuchen mehrerer Websites und Sammeln von Informationen (= Sammlung)" gelegt. Es scheint zu geben. Wenn Sie also nur die Informationen erhalten möchten, die Sie beim Durchlaufen mehrerer Webseiten benötigen, müssen Sie "crawlen und kratzen". Es scheint, dass die Leute es etwas anders sehen, aber es ist in Ordnung, es als "Technologie, die sich gegenseitig ergänzt (= Sammlung und Extraktion)" zu interpretieren.

wichtiger Punkt

Da beim Crawlen automatisch Website-Informationen erfasst werden, kann dies in einigen Fällen gegen Urheberrechtsgesetze und Website-Richtlinien verstoßen. Seien Sie sehr vorsichtig, wenn Sie etwas untersuchen. Angenommen, Sie möchten nicht, dass Ihre Site gecrawlt wird. Es gibt verschiedene Möglichkeiten, dies zu tun, aber es ist wichtig, zuerst klar in Ihre Site-Richtlinie zu schreiben. Es kann jedoch sein, dass es von der Person, die automatisch crawlt (sogenannter Bot usw.), nicht bemerkt wird. Erstellen wir also ** robots.txt **. Wenn Sie Einstellungen schreiben, z. B. ob das Crawlen in dieser Datei zulässig ist, können Sie das Crawlen vermeiden, es sei denn, Sie sind eine böswillige Person. Als Referenzseite möchte ich "Our Howtonote" vorstellen.

Scrapy

Nun, ich habe den Unterschied zwischen Schaben und Krabbeln früher erklärt, aber ein guter Mensch hat das vielleicht gedacht.

"Muss ich separat kriechen und kratzen?"

Es gibt viele Frameworks zum Crawlen und Scraping, aber tatsächlich gibt es Frameworks zum Crawlen und Scraping. Das ist ** Scrapy **.

Einführung in die Referenzseite "note.nkmk.me" zur Verwendung von Scrapy. Diese Site enthält Scrapy Tutorial Erklärungen und leicht verständliche Beispiele. Wenn Sie es also ausprobieren möchten! Wenn Sie denken, beziehen Sie sich bitte darauf. (Ich habe es auch als Referenz verwendet.)

abschließend

Dies ist das erste Mal, dass ich in Qiita poste. Dieses Mal habe ich es einfach gemacht als Artikel, der auch als Schreibpraxis dient. Ergänzungen / Korrekturen werden vorgenommen, wenn darauf hingewiesen wird oder wenn mein Wissen aktualisiert wird.

Recommended Posts

Was ist Schaben? [Zusammenfassung für Anfänger]
Was ist xg boost (1) (für Anfänger)
Wofür ist Linux?
Was ist die Schnittstelle für ...
Python für Anweisung ~ Was ist iterierbar ~
Web Scraping für Anfänger in Python (1)
Wofür ist der Python-Unterstrich (_)?
Web Scraping für Anfänger in Python (4) -1
Pandas Basics Summary Link für Anfänger
[Linux-Befehlsübersicht] Befehlsliste [Muss für Anfänger]
Django Tutorial Zusammenfassung für Anfänger von Anfängern ③ (Anzeigen)
Linux-Betrieb für Anfänger Grundlegende Befehlsübersicht
[Statistik für Programmierer] Was ist ein Ereignis?
Django Tutorial Zusammenfassung für Anfänger von Anfängern ⑤ (Test)
[Für Anfänger] Versuchen Sie Web Scraping mit Python
Was ist ein Namespace?
Was ist copy.copy ()
Was ist Django? .. ..
Was ist dotenv?
Was ist POSIX?
Was ist Linux?
Was ist klass?
[Beispiel für eine Python-Verbesserung] Was ist die empfohlene Lernseite für Python-Anfänger?
Was ist SALOME?
Was ist Linux?
Was ist Python?
Was ist Hyperopt?
Was ist Linux?
Was ist Pyvenv?
Was ist __call__?
Was ist Linux?
Was ist Python?
Django Tutorial Zusammenfassung für Anfänger von Anfängern ⑦ (Customize Admin)
[Für Anfänger] Was ist nach der Installation von Anaconda zu tun?
Django Tutorial Zusammenfassung für Anfänger von Anfängern ① (Projekterstellung ~)
Django Tutorial Zusammenfassung für Anfänger von Anfängern ④ (Generic View)
[Für Anfänger] Was ist in Deep Learning von Grund auf neu geschrieben?
Was ist eine Distribution?
Was ist Piotroskis F-Score?
Web Scraping für Anfänger in Python (1) Verbesserte Version
Spacemacs-Einstellungen (für Anfänger)
Was ist Raspberry Pi?
Was ist das Calmar-Verhältnis?
Was ist ein Terminal?
[PyTorch Tutorial ①] Was ist PyTorch?
Was ist Hyperparameter-Tuning?
Zusammenfassung der Vorverarbeitungsmethoden für Python-Anfänger (Pandas-Datenrahmen)
Was ist ein Hacker?
Python Lehrbuch für Anfänger
Was ist JSON? .. [Hinweis]
Was ist ein Zeiger?
Was ist Ensemble-Lernen?
Was ist TCP / IP?
Dikstra-Algorithmus für Anfänger
Was ist ein empfohlener Motor? Zusammenfassung der Typen
Zusammenfassung zum Lernen von RAPIDS
Was ist Pythons __init__.py?