[PYTHON] Laden Sie die abgekratzten Artefakte in Scrapy Cloud auf S3 hoch

Einführung

Zuvor hatte ich zum Studium Ich habe versucht, eine Postleitzahlensuch-API mit AWS Lambda + API Gateway zu erstellen, aber die Postleitzahlendaten lauten "Scrapy". Ich habe es abgekratzt und zur Verwendung auf "S3" hochgeladen. Dieses Mal werde ich über die Punkte schreiben, von denen ich abhängig war, bevor ich das Projekt in "Scrapy Cloud" bereitstellte und den regulären Zeitplan ausführte.

Für "Scrapy Cloud" habe ich auf die folgende URL verwiesen.

Scrapy + Scrapy Cloud für ein komfortables Python-Crawlen + Scraping-Leben - Blog zur Analyse von Gunosy-Daten
Scraping mit Python-Einführung in Scrapy 2. Schritt-Qiita

Gesamtworkflow

Die folgende Abbildung zeigt den gesamten Workflow.

jp-zip_scrapy構成図.png

Bis zur Bereitstellung auf dem "Scraping Hub"

Von der Erstellung eines "Scrapy" -Projekts bis zur Bereitstellung für "Scrapinghub" ist der Ablauf wie folgt.

--Erstellen Sie ein Scrapy-Projekt

$ scrapy startproject {your project}
Lokal implementiert
Versuchen Sie, vor Ort zu kratzen
$ scrapy runspider {spider_file.py}
Bereitstellen auf "Scraping Hub"
$ shub deploy

Wovon ich süchtig war, als ich einen Job auf "Scraping Hub" ausführte

Es hat gut funktioniert, bis ich es für "Scrapinghub" bereitgestellt habe, aber es gab einige süchtig machende Punkte, als ich den Job für "Scrapinghub" ausgeführt habe.

boto unterstützt 2 systeme

Boto wird zum Betreiben von AWS verwendet. Seien Sie jedoch vorsichtig, da "Scrapy Cloud" "Boto" (v2) vorinstalliert hat. ist.

Supported libraries on Scrapy Cloud / Knowledge Base Forum / Scrapinghub

Zusätzliche Installation von boto3 (aktualisiert am 19.12.2016)

Wenn Sie in "Scrapinghub.yml" "Requirements_file" angeben, können Sie die erforderlichen Bibliotheken installieren und boto3 verwenden.

Scrapy Cloud — Scrapinghub documentation Dependencies and External Libraries

Wenn "Anforderungsdatei" zum Zeitpunkt der Bereitstellung normal verarbeitet wird, können Sie die zusätzlich installierte Bibliothek in "Anforderungen" von "Code & Bereitstellungen" überprüfen.

Was tun mit AWS-Anmeldeinformationen?

Für AWS-Anmeldeinformationen gehen Sie zu Spider Settings-> Spider Settigns und registrieren Sie die Einstellungswerte wie unten gezeigt.

Zugriff über den Code wie folgt.

from scrapy.conf import settings

s3 = boto.connect_s3(settings['AWS_ACCESS_KEY_ID'], settings['AWS_SECRET_ACCESS_KEY'])

https://doc.scrapy.org/en/latest/topics/settings.html#built-in-settings-reference

Wenn Sie lokal prüfen möchten, schreiben Sie den Einstellungswert in settings.py. Wenn die Anmeldeinformationen jedoch in "~ / .aws / credentials" vorhanden sind, muss der Einstellungswert nicht beschrieben werden.

`settings.py`


AWS_ACCESS_KEY_ID = 'xxxxxx'
AWS_SECRET_ACCESS_KEY = 'xxxxxx'

Aufgabe

--Das Hochladen von Dateien in "S3" ist extrem langsam, das Scraping dauert ungefähr 20 Minuten ――Es dient Studienzwecken, sodass Sie sich keine Sorgen machen müssen, aber ich möchte es irgendwie verbessern.

Die Postcode-Daten werden einmal im Monat aktualisiert
Ich möchte, dass die API auf der AWS Lambda-Seite automatisch auf die neuesten Daten verweist, wenn die Postleitzahldaten aktualisiert werden.
Derzeit wird das Aktualisierungsdatum der Postleitzahldaten als Versionsinformation von Stufenvariablen verwaltet.
Ich möchte die Stage-Variable aktualisieren, nachdem der Upload auf "S3" abgeschlossen ist.

abschließend

Anfangs habe ich versucht, das Scrapy-Projekt sowohl auf AWS Lambda als auch auf der API auszuführen. Ich musste den Quellcode jedoch in eine ZIP-Datei einschließlich der Bibliothek komprimieren und hochladen. Infolgedessen funktionierte er nicht gut und versuchte, ihn gehorsam in "Scrapy Cloud" bereitzustellen.

Ich wurde auch zu Bot Crawler Adventskalender 2016 eingeladen, also habe ich auch dort einige Bots mit "Scrapy Cloud" erstellt und einen Artikel geschrieben. Ich werde versuchen.

Bis bald.