Ich habe mit der Implementierung mit Scrapy begonnen, weil ich vom Endpunkt aus starten wollte, anstatt nur den Endpunkt zu crawlen, aber ich blieb hängen, also notieren Sie es sich.
Ich habe das Scraping implementiert, indem ich mich auf den Inhalt hier bezog. http://qiita.com/meltest/items/b445510f09d81276a420 http://qiita.com/checkpoint/items/0c8ad814c25e85bbcfa2#_reference-2f452f48c4e974829586 http://qiita.com/tamonoki/items/ce58ff209f8eae808162 http://web-tsukuru.com/570
Ich habe versucht, die Scraping-Regel durch Imitieren der obigen Site zu implementieren, aber aus irgendeinem Grund wird nur der Endpunkt gecrawlt.
#Einstellungen für Scraping-Regeln
rules = (
#Geben Sie die Regeln für die URL an, die gelöscht werden soll
Rule(LinkExtractor(deny=deny_list,unique=True), callback='parse'),
#Geben Sie die URL an, der die Spinne folgen soll
Rule(LinkExtractor(), follow=True)
)
def parse(self, response:
Es scheint, dass ein Problem mit dem Funktionsnamen (Parse) aufgetreten ist, der von Callback gelesen wurde. Vielleicht steht es unten? Ich kann kein Englisch lesen. https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.parse
Ändern Sie einfach den Funktionsnamen und es wird in der Reihenfolge vom Endpunkt entfernt.
#Einstellungen für Scraping-Regeln
rules = (
#Geben Sie die Regeln für die URL an, die gelöscht werden soll
Rule(LinkExtractor(deny=deny_list,unique=True), callback='downloadPic'),
#Geben Sie die URL an, der die Spinne folgen soll
Rule(LinkExtractor(), follow=True)
)
def downloadPic(self, response):