J'ai commencé à l'implémenter avec Scrapy parce que je voulais pouvoir commencer à partir du point de terminaison au lieu de simplement explorer le point de terminaison, mais j'en suis accro, alors prenez-en note.
J'ai implémenté le scraping en me référant au contenu ici. http://qiita.com/meltest/items/b445510f09d81276a420 http://qiita.com/checkpoint/items/0c8ad814c25e85bbcfa2#_reference-2f452f48c4e974829586 http://qiita.com/tamonoki/items/ce58ff209f8eae808162 http://web-tsukuru.com/570
J'ai essayé de mettre en œuvre la règle de scraping en imitant le site ci-dessus, mais pour une raison quelconque, il n'explore que le point de terminaison.
#Paramètres de règle de raclage
rules = (
#Spécifiez les règles de l'URL à supprimer
Rule(LinkExtractor(deny=deny_list,unique=True), callback='parse'),
#Spécifiez l'URL que l'araignée suivra
Rule(LinkExtractor(), follow=True)
)
def parse(self, response:
Il semble qu'il y ait eu un problème avec le nom de la fonction (parse) lu par Callback. Peut-être que c'est écrit ci-dessous? Je ne peux pas lire l'anglais. https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.parse
Changez simplement le nom de la fonction et elle sera grattée dans l'ordre du point de terminaison.
#Paramètres de règle de raclage
rules = (
#Spécifiez les règles de l'URL à supprimer
Rule(LinkExtractor(deny=deny_list,unique=True), callback='downloadPic'),
#Spécifiez l'URL que l'araignée suivra
Rule(LinkExtractor(), follow=True)
)
def downloadPic(self, response):