[PYTHON] So sammeln Sie Twitter-Daten ohne Programmierung

Gruß

Hallo, das ist Sunfish. Als ersten Beitrag habe ich eine Corona-bezogene Tweet-Analyseserie ausprobiert. Ich habe Python satt, also habe ich die Daten mit nehan analysiert (Corona verwandt, ist das Wort jetzt?) Ich habe Python satt, also habe ich versucht, die Daten mit nehan zu analysieren (ich möchte auch mit Corona-Krankheit live gehen - Teil 2) Ich habe Python satt, also habe ich versucht, die Daten mit nehan zu analysieren (ich möchte sogar mit Coronas bösem Teil 1 live gehen)

Dieses Mal möchte ich mit ** Wie man überhaupt Twitter-Daten sammelt ** abschließen. Natürlich mit Analysis Tool nehan.

Verwenden Sie Amazon S3 als Speicher für die Speicherung.

Beantragen Sie die API-Nutzung

Zunächst müssen Sie die Verwendung der Twitter-API beantragen. Wenn Sie bei Google suchen, gibt es viele Möglichkeiten, dies zu tun. Ich werde es daher weglassen. Es ist nur ein Bewerbungsprozess, aber es ist ein wenig mühsam, verschiedene Dinge zu schreiben und überhaupt Englisch zu sprechen.

Klicken Sie auf die Twitter-API

nehan verfügt über viele Anschlüsse zur Erfassung externer Daten. スクリーンショット 2020-10-19 15.38.46.png Da der Cdata-Treiber verwendet wird, können auch Webdienstdaten importiert werden. スクリーンショット 2020-10-19 15.38.55.png Wenn Sie Twitter auswählen und die erfassten API-Informationen eingeben, können Sie Tweet-Daten mit einer SQL-Abfrage erfassen.

Sammeln Sie die erfassten Tweet-Daten

Fügen Sie den erfassten Daten einige Anstrengungen hinzu und speichern Sie sie in Amazon S3. Fügen Sie eine Spalte hinzu, um die Verarbeitungszeit hinzuzufügen, damit Sie sehen können, wann die Daten erfasst wurden. スクリーンショット 2020-10-19 16.20.37.png Hier bietet sich die variable Funktion an. Die Ausführungszeit und das Ausführungsdatum werden dynamisch definiert. スクリーンショット 2020-10-19 16.20.06.png Wenn Sie dann endgültig nach S3 exportieren, ist die Akkumulation abgeschlossen. Ich habe eine Variable in den Namen der zu exportierenden Datei eingefügt, damit ich das Verarbeitungsdatum kennen kann. スクリーンショット 2020-10-19 16.20.49.png

Verarbeiten und sammeln Sie täglich Daten

Da es nicht möglich ist, den obigen Vorgang jeden Tag manuell auszuführen, legen Sie die Einstellung für die automatische Aktualisierung fest. Der Ablauf zum Aktualisieren und Speichern von Tweet-Daten in S3 wird so eingestellt, dass er jeden Tag automatisch um 0:00 Uhr ausgeführt wird. スクリーンショット 2020-10-19 16.21.57.png Manchmal antwortet die Twitter-API nicht und ich kann die Daten nicht abrufen, daher schlägt sie manchmal fehl. .. .. スクリーンショット 2020-10-19 16.22.14.png

Erfassen und analysieren Sie die gesammelten Daten erneut

Die in Amazon S3 gesammelten täglichen Daten werden stapelweise erfasst und in nehan importiert. Ich habe die auf diese Weise erfassten Daten analysiert.

Zusammenfassung

Während es mich dazu bringt, externe Daten zu sammeln und sie zu sehen, indem ich sie mit meinen eigenen Daten multipliziere, kann das Sammeln sehr problematisch sein. Mit nehan können Sie sowohl eine direkte Verbindung zur Analyse als auch zur Sammlung herstellen. Natürlich ist keine Programmierung erforderlich. Für Analysten, die es satt haben, Daten zu sammeln und Python zu schreiben, warum nicht ein angenehmes analytisches Leben mit nehan führen?

Eine Einführung in das Analysetool nehan finden Sie hier [https://nehan.io/product/].