Was ist Scrapy?

Scrapy ist das Crawler- und Scraping-Framework von Python. Auf diese Weise können Sie gemäß der Art des Frameworks codieren, anstatt die Bibliothek in den von Ihnen geschriebenen Code zu importieren.

Installieren Sie Scrapy

$pip install scrapy

Erstellen Sie ein Projekt

Führen Sie den folgenden Befehl aus, um ein Projekt zu erstellen.

$scrapy startproject (Projektname)

Der Projektname kann beliebig sein. Wenn Sie es ausführen, erhalten Sie viele Verzeichnisse.

Lassen Sie uns das Download-Intervall einstellen

Wenn Sie das Download-Intervall nicht festlegen, wird das Crawling-Zielsystem belastet, sodass Sie genau darauf achten müssen.

Fügen Sie settings.py die folgende Anweisung aus dem Projektnamenordner hinzu.

DOWNLOAD_DERAY = 1

Element erstellen

Hier können Sie aufbewahren, was Sie beim Krabbeln erhalten haben. Definieren Sie eine Klasse in items.py.

class [Name der Klasse](scrapy.Item):
    [Der Name dessen, was Sie holen] = scrapy.Field()

item = [Name der Klasse]()
item['Der Name dessen, was Sie holen'] = 'Examples'

Eine Spinne erstellen

Die Details des Krabbelns und Kratzens werden hauptsächlich in der Spinne beschrieben. Geben Sie den folgenden Befehl ein, um eine Spinne zu erstellen.

$scrapy genspider [Name der Spinne] [Domäne der abzurufenden Site]

Dadurch wird eine .py-Datei [Spinnenname] im Spider-Ordner erstellt.

Danach wird die Spinne entsprechend der zu durchsuchenden Site beschrieben.

Ich würde mich freuen, wenn Sie auf Fehler hinweisen könnten.