HTTP ist ein zustandslos entwickeltes Protokoll Wenn Sie einen Status haben möchten, verwenden Sie ein Cookie. Es ist nicht immer erforderlich, das Senden und Empfangen von Cookies durch Erstellen eines Crawlers zu implementieren. Verwenden Sie das Sitzungsobjekt der Anforderungsbibliothek. Der Zustand kann auch durch Referer ausgedrückt werden.
Wird zum Implementieren der Anmeldung usw. verwendet.
SPA usw. enthalten keine Inhalte in HTML. In diesem Fall muss JavaScript interpretiert werden.
Usw. sind als automatische Bedienwerkzeuge erhältlich.
Google Bot etc.
Es gibt diese drei Merkmale, aber Sie sollten die folgenden Punkte unabhängig vom Crawler-Muster kennen.
robots.txt Robots.txt- und Robots-Meta-Tags werden häufig verwendet, um Website-Administratoren anzuweisen, eine bestimmte Seite nicht zu crawlen.
robots.txt: Eine Textdatei im obersten Verzeichnis der Website Roboter-Meta-Tag: Enthält Anweisungen für den Crawler.
Sie können Informationen zu robots.txt mithilfe einer Python-Bibliothek namens urllib.robotparser abrufen.
Eine XML-Datei, in der Website-Administratoren eine Liste der URLs anzeigen können, die der Crawler crawlen soll.
Das Crawlen mit Bezug auf die XML-Site-Map ist effizient, da Sie nur die Seiten crawlen müssen, die gecrawlt werden müssen.
Geben Sie eine beliebige Zeichenfolge in den User-Agent-Header ein, um darauf zuzugreifen.
Durch Ändern der Fehlerverarbeitung in Abhängigkeit vom Statuscode ist es möglich, eine Verarbeitung durchzuführen, z. B. einen erneuten Versuch im Falle eines Netzwerkfehlers (z. B. keine Verbindung herstellen zu können).