Scrapy est le framework d'exploration et de scraping de Python. En utilisant cela, vous pouvez coder selon la manière du framework au lieu d'importer la bibliothèque dans le code que vous avez écrit.
$pip install scrapy
Pour créer un projet, exécutez la commande suivante.
$scrapy startproject (Nom du projet)
Le nom du projet peut être tout ce que vous voulez. Si vous l'exécutez, vous obtiendrez de nombreux répertoires.
Si vous ne définissez pas l'intervalle de téléchargement, cela mettra une charge sur le système de destination de l'exploration, vous devez donc y prêter une attention particulière.
Ajoutez l'instruction suivante à setting.py à partir du dossier de nom de projet.
DOWNLOAD_DERAY = 1
C'est un endroit pour stocker ce que vous avez obtenu en rampant. Définissez une classe dans items.py.
class [nom de la classe](scrapy.Item):
[Le nom de ce que vous récupérez] = scrapy.Field()
item = [nom de la classe]()
item['Le nom de ce que vous récupérez'] = 'Examples'
Les détails de l'exploration et du grattage sont principalement décrits dans l'araignée. Entrez la commande suivante pour créer une araignée.
$scrapy genspider [nom de l'araignée] [Domaine du site à récupérer]
Cela créera un fichier [nom de l'araignée] .py dans le dossier de l'araignée.
Après cela, l'araignée sera décrite en fonction du site à explorer.
Je vous serais reconnaissant si vous pouviez signaler des erreurs.
Recommended Posts