https://doc-ja-scrapy.readthedocs.io/ja/latest/index.html
#Création de projet
$ scrapy startproject <project name>
#Réglage
$ cat setting.py
DOWNLOAD_DELAY = 1
FEED_EXPORT_ENCODING = "utf-8"
#Créer une araignée
$ scrapy genspider <mydomain> <mydomain.com>
#Écrire le traitement d'analyse et exécuter l'exploration
$ scrappy crawl <spider name>
def parse(self, response):
for sel in response.css('#gmap_list > li > a'):
next_page = response.urljoin(sel.css('a::attr("href")').get())
yield scrapy.Request(next_page, callback=self.parse_detail)
def parse_detail(self, response):
'''
Traitement de l'analyse de la page de détail
'''
ORM Si vous l'utilisez, Orator semble être simple et facile à utiliser. https://orator-orm.com/docs/0.9/basic_usage.html
Recommended Posts