Python Crawling & Scraping Kapitel 4 Zusammenfassung

Einführung

Lernzusammenfassung von "Python Crawling & Scraping [Augmented Revised Edition] Praktischer Entwicklungsleitfaden für die Datenerfassung und -analyse" Dieses Kapitel 4 trug den Titel "Methoden für den praktischen Gebrauch" und konzentrierte sich auf Punkte, die beim Erstellen von Crawlern zu beachten sind.

4.1 Crawler-Eigenschaften

4.1.1 Crawler mit Status

4.1.2 Crawler interpretiert JavaScript

JavaScript zum Crawlen von Websites, die als SPA (Single Page Application) erstellt wurden Muss interpretiert werden. Verwenden Sie dazu Tools wie Selenium und Puppeteer, um den Browser automatisch zu bedienen. Darüber hinaus verfügen Browser wie Chrome und FireFox über einen Headless-Modus, der ohne GUI ausgeführt werden kann. Dies kann beim Erstellen von Crawlern hilfreich sein.

4.1.3 Crawler für eine nicht angegebene Anzahl von Websites

So etwas wie Googlebot. Es ist schwieriger als ein Crawler, der auf eine bestimmte Site abzielt. Ein Mechanismus, der nicht von der Seitenstruktur abhängt, ist erforderlich.

4.2 Vorsichtsmaßnahmen bezüglich der Verwendung der gesammelten Daten

4.2.1 Urheberrecht

Urheberrechte, die beim Erstellen eines Crawlers zu beachten sind → Vervielfältigungsrechte, Anpassungsrechte, öffentliche Übertragungsrechte `Die Überarbeitung des Urheberrechtsgesetzes im Jahr 2009 hat es ermöglicht, Vervielfältigungen zum Zwecke der Informationsanalyse und Vervielfältigung, Anpassung und automatischen öffentlichen Übermittlung zum Zwecke der Bereitstellung von Suchmaschinendiensten ohne Erlaubnis des Urheberrechtsinhabers durchzuführen.

4.2.2 Nutzungsbedingungen und persönliche Informationen

Eine Geschichte über die Einhaltung der Bedingungen der Website. Personenbezogene Daten werden auf der Grundlage des Gesetzes zum Schutz personenbezogener Daten verwaltet.

4.3 Vorsichtsmaßnahmen bezüglich der Last am Crawling-Ziel

So belasten Sie das Crawling-Ziel nicht. [Fall der Zentralbibliothek der Stadt Okazaki - Wikipedia](https://ja.wikipedia.org/wiki/Okazaki Fall der Zentralbibliothek der Stadt) Was ist so passiert?

4.3.1 Anzahl gleichzeitiger Verbindungen und Durchforstungsintervall

4.3.2 Anweisungen an den Crawler von robots.txt

In Bezug auf Netkeiba, die immer kratzt, scheint es in robots.txt oder im Meta-Tag keine besonderen Anweisungen zu geben

4.3.3 XML-Site-Map

XML-Datei, die dem Crawler die URL mitteilt, die gecrawlt werden soll Effizienter als Links zu folgen und zu crawlen Beschreiben Sie in der Sitemap-Direktive von robots.txt

4.3.4 Klärung der Kontaktinformationen

Kontaktinformationen wie E-Mail-Adresse und URL können im User-Agent-Header der vom Crawler gesendeten Anforderung beschrieben werden.

4.3.5 Statuscode und Fehlerbehandlung

Die Fehlerbehandlung ist wichtig, um das Crawling-Ziel nicht zusätzlich zu belasten Wenn Sie es im Fehlerfall erneut versuchen, ergreifen Sie Maßnahmen wie das exponentielle Erhöhen des Wiederholungsintervalls. Es gibt viele Standardbeschreibungen für die Fehlerbehandlung, die jedoch mithilfe einer Bibliothek namens Tenacity kurz beschrieben werden können.

4.4 Zur wiederholten Ausführung ausgelegt

4.4.1 Nur aktualisierte Daten abrufen

--HTTP-Cache-Richtlinie

4.4.2 Änderungen am Crawling-Ziel erkennen

Wenn eine Änderung auf diese Weise erkannt werden kann, wird der Crawler durch Benachrichtigung per E-Mail beendet.

4.5 Zusammenfassung

Kürzung

abschließend

Ich war nicht motiviert und das Posting-Intervall war frei, aber vorerst war es ein Artikel, der das Überleben bestätigte (?)

Recommended Posts

Python Crawling & Scraping Kapitel 4 Zusammenfassung
Python-Zusammenfassung
Python-Zusammenfassung
[Scraping] Python-Scraping
Python-Scraping-Memo
Python Scraping get_ranker_categories
Scraping mit Python
Scraping mit Python
Zusammenfassung des Python-Tutorials
Python Scraping eBay
Python Scraping get_title
Python: Scraping Teil 1
Python-bezogene Zusammenfassung
Scraping mit Python
Zusammenfassung der Python-Grundlagen
Scraping in Python (Vorbereitung)
Versuchen Sie es mit Python.
Zusammenfassung des Python Django-Tutorials
UnicodeEncodeError: 'cp932' während des Python-Scrapings
Grundlagen der Python-Scraping-Grundlagen
Scraping mit Python + PhantomJS
Zusammenfassung über Python3 + OpenCV3
Zusammenfassung der Python-Funktionsargumente
Zusammenfassung der Python-Verzeichnisoperationen
Zusammenfassung des Python AI-Frameworks
Zusammenfassung der Python-iterativen Verarbeitung
Zusammenfassung der Python-Argumente
Schaben mit Selen [Python]
Scraping mit Python + PyQuery
[Python] Kapitel 01-01 Über Python (Erster Python)
Scraping von RSS mit Python
Scraping mit Python 3.5 async / await
Ich habe versucht, mit Python zu kratzen
Web Scraping mit Python + JupyterLab
Python Machine Learning Programming Kapitel 2 Klassifizierungsprobleme - Zusammenfassung des Trainingsalgorithmus für maschinelles Lernen
Zusammenfassung der Python-Dateivorgänge
Schaben mit Selen + Python Teil 1
Zusammenfassung der Python3-Listenoperationen
Python für die Datenanalyse Kapitel 4
[Python] Scraping in AWS Lambda
Python Super Anfänger versucht zu kratzen
Was ist neu in Python 3.10 (Zusammenfassung)
Schaben mit Chromedriver in Python
Festliches Scraping mit Python, Scrapy
Standardeingabe / Zusammenfassung / Python, Ruby
Scraping mit Selen in Python
Zusammenfassung des Bereichs der Python-Klassenmitglieder
Zusammenfassung des Python-Webprogrammierartikels
100 Sprachverarbeitung Knock Kapitel 2 (Python)
Kompromisse beim Web Scraping & Crawlen
Scraping mit Tor in Python
Web Scraping mit Selenium (Python)
Python Pandas Studie aktuelle Zusammenfassung
Python-Datentyp-Zusammenfassungsnotiz
Schaben mit Selen + Python Teil 2
[Python + Selen] Tipps zum Scraping
Web Scraping Anfänger mit Python