[PYTHON] [Scrapy] Nur der Endpunkt kriecht und patrouilliert nicht

Ich habe mit der Implementierung mit Scrapy begonnen, weil ich vom Endpunkt aus starten wollte, anstatt nur den Endpunkt zu crawlen, aber ich blieb hängen, also notieren Sie es sich.

Ich habe das Scraping implementiert, indem ich mich auf den Inhalt hier bezog. http://qiita.com/meltest/items/b445510f09d81276a420 http://qiita.com/checkpoint/items/0c8ad814c25e85bbcfa2#_reference-2f452f48c4e974829586 http://qiita.com/tamonoki/items/ce58ff209f8eae808162 http://web-tsukuru.com/570

Status

Ich habe versucht, die Scraping-Regel durch Imitieren der obigen Site zu implementieren, aber aus irgendeinem Grund wird nur der Endpunkt gecrawlt.

    #Einstellungen für Scraping-Regeln
    rules = (
             #Geben Sie die Regeln für die URL an, die gelöscht werden soll
             Rule(LinkExtractor(deny=deny_list,unique=True), callback='parse'),
             #Geben Sie die URL an, der die Spinne folgen soll
             Rule(LinkExtractor(), follow=True)
            )

    def parse(self, response:

Ursache

Es scheint, dass ein Problem mit dem Funktionsnamen (Parse) aufgetreten ist, der von Callback gelesen wurde. Vielleicht steht es unten? Ich kann kein Englisch lesen. https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.parse

Korrespondenz

Ändern Sie einfach den Funktionsnamen und es wird in der Reihenfolge vom Endpunkt entfernt.

    #Einstellungen für Scraping-Regeln
    rules = (
             #Geben Sie die Regeln für die URL an, die gelöscht werden soll
             Rule(LinkExtractor(deny=deny_list,unique=True), callback='downloadPic'),
             #Geben Sie die URL an, der die Spinne folgen soll
             Rule(LinkExtractor(), follow=True)
            )

    def downloadPic(self, response):

Recommended Posts

[Scrapy] Nur der Endpunkt kriecht und patrouilliert nicht
[Scrapy] Nur der Endpunkt kriecht und patrouilliert nicht
Lassen Sie __init__.py nicht aus
Der Websocket von toio (nodejs) und python / websocket stellen keine Verbindung her.