Hallo, das ist Sunfish. Als ersten Beitrag habe ich eine Corona-bezogene Tweet-Analyseserie ausprobiert. Ich habe Python satt, also habe ich die Daten mit nehan analysiert (Corona verwandt, ist das Wort jetzt?) Ich habe Python satt, also habe ich versucht, die Daten mit nehan zu analysieren (ich möchte auch mit Corona-Krankheit live gehen - Teil 2) Ich habe Python satt, also habe ich versucht, die Daten mit nehan zu analysieren (ich möchte sogar mit Coronas bösem Teil 1 live gehen)
Dieses Mal möchte ich mit ** Wie man überhaupt Twitter-Daten sammelt ** abschließen. Natürlich mit Analysis Tool nehan.
Verwenden Sie Amazon S3 als Speicher für die Speicherung.
Zunächst müssen Sie die Verwendung der Twitter-API beantragen. Wenn Sie bei Google suchen, gibt es viele Möglichkeiten, dies zu tun. Ich werde es daher weglassen. Es ist nur ein Bewerbungsprozess, aber es ist ein wenig mühsam, verschiedene Dinge zu schreiben und überhaupt Englisch zu sprechen.
nehan verfügt über viele Anschlüsse zur Erfassung externer Daten. Da der Cdata-Treiber verwendet wird, können auch Webdienstdaten importiert werden. Wenn Sie Twitter auswählen und die erfassten API-Informationen eingeben, können Sie Tweet-Daten mit einer SQL-Abfrage erfassen.
Fügen Sie den erfassten Daten einige Anstrengungen hinzu und speichern Sie sie in Amazon S3. Fügen Sie eine Spalte hinzu, um die Verarbeitungszeit hinzuzufügen, damit Sie sehen können, wann die Daten erfasst wurden. Hier bietet sich die variable Funktion an. Die Ausführungszeit und das Ausführungsdatum werden dynamisch definiert. Wenn Sie dann endgültig nach S3 exportieren, ist die Akkumulation abgeschlossen. Ich habe eine Variable in den Namen der zu exportierenden Datei eingefügt, damit ich das Verarbeitungsdatum kennen kann.
Da es nicht möglich ist, den obigen Vorgang jeden Tag manuell auszuführen, legen Sie die Einstellung für die automatische Aktualisierung fest. Der Ablauf zum Aktualisieren und Speichern von Tweet-Daten in S3 wird so eingestellt, dass er jeden Tag automatisch um 0:00 Uhr ausgeführt wird. Manchmal antwortet die Twitter-API nicht und ich kann die Daten nicht abrufen, daher schlägt sie manchmal fehl. .. ..
Die in Amazon S3 gesammelten täglichen Daten werden stapelweise erfasst und in nehan importiert. Ich habe die auf diese Weise erfassten Daten analysiert.
Während es mich dazu bringt, externe Daten zu sammeln und sie zu sehen, indem ich sie mit meinen eigenen Daten multipliziere, kann das Sammeln sehr problematisch sein. Mit nehan können Sie sowohl eine direkte Verbindung zur Analyse als auch zur Sammlung herstellen. Natürlich ist keine Programmierung erforderlich. Für Analysten, die es satt haben, Daten zu sammeln und Python zu schreiben, warum nicht ein angenehmes analytisches Leben mit nehan führen?
Recommended Posts