Lernzusammenfassung von "Python Crawling & Scraping [Augmented Revised Edition] Praktischer Entwicklungsleitfaden für die Datenerfassung und -analyse" Dieses Kapitel 4 trug den Titel "Methoden für den praktischen Gebrauch" und konzentrierte sich auf Punkte, die beim Erstellen von Crawlern zu beachten sind.
Wenn Sie eine Site crawlen möchten, für die eine Anmeldung erforderlich ist, erstellen Sie einen Crawler, der Cookies unterstützt.
Die Anforderungsbibliothek von Python sendet mithilfe des Sitzungsobjekts automatisch Cookies an den Server.
Referer --HTTP-Header zum Senden der URL der zuvor angezeigten Seite an den Server
(Beispiel) Wenn Sie über die Google-Suchergebnisse auf Qiita zugreifen, sieht es so aus, wenn Sie es mit dem Überprüfungstool von Chrome überprüfen
JavaScript zum Crawlen von Websites, die als SPA (Single Page Application) erstellt wurden Muss interpretiert werden. Verwenden Sie dazu Tools wie Selenium und Puppeteer, um den Browser automatisch zu bedienen. Darüber hinaus verfügen Browser wie Chrome und FireFox über einen Headless-Modus, der ohne GUI ausgeführt werden kann. Dies kann beim Erstellen von Crawlern hilfreich sein.
So etwas wie Googlebot. Es ist schwieriger als ein Crawler, der auf eine bestimmte Site abzielt. Ein Mechanismus, der nicht von der Seitenstruktur abhängt, ist erforderlich.
Urheberrechte, die beim Erstellen eines Crawlers zu beachten sind → Vervielfältigungsrechte, Anpassungsrechte, öffentliche Übertragungsrechte `Die Überarbeitung des Urheberrechtsgesetzes im Jahr 2009 hat es ermöglicht, Vervielfältigungen zum Zwecke der Informationsanalyse und Vervielfältigung, Anpassung und automatischen öffentlichen Übermittlung zum Zwecke der Bereitstellung von Suchmaschinendiensten ohne Erlaubnis des Urheberrechtsinhabers durchzuführen.
Eine Geschichte über die Einhaltung der Bedingungen der Website. Personenbezogene Daten werden auf der Grundlage des Gesetzes zum Schutz personenbezogener Daten verwaltet.
So belasten Sie das Crawling-Ziel nicht. [Fall der Zentralbibliothek der Stadt Okazaki - Wikipedia](https://ja.wikipedia.org/wiki/Okazaki Fall der Zentralbibliothek der Stadt) Was ist so passiert?
In Bezug auf Netkeiba, die immer kratzt, scheint es in robots.txt oder im Meta-Tag keine besonderen Anweisungen zu geben
XML-Datei, die dem Crawler die URL mitteilt, die gecrawlt werden soll Effizienter als Links zu folgen und zu crawlen Beschreiben Sie in der Sitemap-Direktive von robots.txt
Kontaktinformationen wie E-Mail-Adresse und URL können im User-Agent-Header der vom Crawler gesendeten Anforderung beschrieben werden.
Die Fehlerbehandlung ist wichtig, um das Crawling-Ziel nicht zusätzlich zu belasten Wenn Sie es im Fehlerfall erneut versuchen, ergreifen Sie Maßnahmen wie das exponentielle Erhöhen des Wiederholungsintervalls. Es gibt viele Standardbeschreibungen für die Fehlerbehandlung, die jedoch mithilfe einer Bibliothek namens Tenacity kurz beschrieben werden können.
--HTTP-Cache-Richtlinie
pip install jsonschema
schreibenWenn eine Änderung auf diese Weise erkannt werden kann, wird der Crawler durch Benachrichtigung per E-Mail beendet.
Kürzung
Ich war nicht motiviert und das Posting-Intervall war frei, aber vorerst war es ein Artikel, der das Überleben bestätigte (?)
Recommended Posts