Scrapy ist das Crawler- und Scraping-Framework von Python. Auf diese Weise können Sie gemäß der Art des Frameworks codieren, anstatt die Bibliothek in den von Ihnen geschriebenen Code zu importieren.
$pip install scrapy
Führen Sie den folgenden Befehl aus, um ein Projekt zu erstellen.
$scrapy startproject (Projektname)
Der Projektname kann beliebig sein. Wenn Sie es ausführen, erhalten Sie viele Verzeichnisse.
Wenn Sie das Download-Intervall nicht festlegen, wird das Crawling-Zielsystem belastet, sodass Sie genau darauf achten müssen.
Fügen Sie settings.py die folgende Anweisung aus dem Projektnamenordner hinzu.
DOWNLOAD_DERAY = 1
Hier können Sie aufbewahren, was Sie beim Krabbeln erhalten haben. Definieren Sie eine Klasse in items.py.
class [Name der Klasse](scrapy.Item):
[Der Name dessen, was Sie holen] = scrapy.Field()
item = [Name der Klasse]()
item['Der Name dessen, was Sie holen'] = 'Examples'
Die Details des Krabbelns und Kratzens werden hauptsächlich in der Spinne beschrieben. Geben Sie den folgenden Befehl ein, um eine Spinne zu erstellen.
$scrapy genspider [Name der Spinne] [Domäne der abzurufenden Site]
Dadurch wird eine .py-Datei [Spinnenname] im Spider-Ordner erstellt.
Danach wird die Spinne entsprechend der zu durchsuchenden Site beschrieben.
Ich würde mich freuen, wenn Sie auf Fehler hinweisen könnten.
Recommended Posts