[PYTHON] So sammeln Sie Twitter-Daten ohne Programmierung

Gruß

Hallo, das ist Sunfish. Als ersten Beitrag habe ich eine Corona-bezogene Tweet-Analyseserie ausprobiert. Ich habe Python satt, also habe ich die Daten mit nehan analysiert (Corona verwandt, ist das Wort jetzt?) Ich habe Python satt, also habe ich versucht, die Daten mit nehan zu analysieren (ich möchte auch mit Corona-Krankheit live gehen - Teil 2) Ich habe Python satt, also habe ich versucht, die Daten mit nehan zu analysieren (ich möchte sogar mit Coronas bösem Teil 1 live gehen)

Dieses Mal möchte ich mit ** Wie man überhaupt Twitter-Daten sammelt ** abschließen. Natürlich mit Analysis Tool nehan.

Verwenden Sie Amazon S3 als Speicher für die Speicherung. tweet_data_flow.png

Beantragen Sie die API-Nutzung

Zunächst müssen Sie die Verwendung der Twitter-API beantragen. Wenn Sie bei Google suchen, gibt es viele Möglichkeiten, dies zu tun. Ich werde es daher weglassen. Es ist nur ein Bewerbungsprozess, aber es ist ein wenig mühsam, verschiedene Dinge zu schreiben und überhaupt Englisch zu sprechen.

Klicken Sie auf die Twitter-API

nehan verfügt über viele Anschlüsse zur Erfassung externer Daten. スクリーンショット 2020-10-19 15.38.46.png Da der Cdata-Treiber verwendet wird, können auch Webdienstdaten importiert werden. スクリーンショット 2020-10-19 15.38.55.png Wenn Sie Twitter auswählen und die erfassten API-Informationen eingeben, können Sie Tweet-Daten mit einer SQL-Abfrage erfassen. twitter1.png

Sammeln Sie die erfassten Tweet-Daten

Fügen Sie den erfassten Daten einige Anstrengungen hinzu und speichern Sie sie in Amazon S3. Fügen Sie eine Spalte hinzu, um die Verarbeitungszeit hinzuzufügen, damit Sie sehen können, wann die Daten erfasst wurden. スクリーンショット 2020-10-19 16.20.37.png Hier bietet sich die variable Funktion an. Die Ausführungszeit und das Ausführungsdatum werden dynamisch definiert. スクリーンショット 2020-10-19 16.20.06.png Wenn Sie dann endgültig nach S3 exportieren, ist die Akkumulation abgeschlossen. Ich habe eine Variable in den Namen der zu exportierenden Datei eingefügt, damit ich das Verarbeitungsdatum kennen kann. スクリーンショット 2020-10-19 16.20.49.png

Verarbeiten und sammeln Sie täglich Daten

Da es nicht möglich ist, den obigen Vorgang jeden Tag manuell auszuführen, legen Sie die Einstellung für die automatische Aktualisierung fest. Der Ablauf zum Aktualisieren und Speichern von Tweet-Daten in S3 wird so eingestellt, dass er jeden Tag automatisch um 0:00 Uhr ausgeführt wird. スクリーンショット 2020-10-19 16.21.57.png Manchmal antwortet die Twitter-API nicht und ich kann die Daten nicht abrufen, daher schlägt sie manchmal fehl. .. .. スクリーンショット 2020-10-19 16.22.14.png

Erfassen und analysieren Sie die gesammelten Daten erneut

Die in Amazon S3 gesammelten täglichen Daten werden stapelweise erfasst und in nehan importiert. twitter3.png Ich habe die auf diese Weise erfassten Daten analysiert.

Zusammenfassung

Während es mich dazu bringt, externe Daten zu sammeln und sie zu sehen, indem ich sie mit meinen eigenen Daten multipliziere, kann das Sammeln sehr problematisch sein. Mit nehan können Sie sowohl eine direkte Verbindung zur Analyse als auch zur Sammlung herstellen. Natürlich ist keine Programmierung erforderlich. Für Analysten, die es satt haben, Daten zu sammeln und Python zu schreiben, warum nicht ein angenehmes analytisches Leben mit nehan führen?

Recommended Posts

So sammeln Sie Twitter-Daten ohne Programmierung
Sammeln von Daten zum maschinellen Lernen
Umgang mit Datenrahmen
[Python] Wie man MP3-Daten fFT
Lesen von e-Stat-Subregionsdaten
So sammeln Sie Bilder in Python
Umgang mit unausgeglichenen Daten
Aufblasen von Daten (Datenerweiterung) mit PyTorch
Wie man relativ einfach Gesichtsbilder sammelt
Verwendung von "deque" für Python-Daten
Umgang mit Zeitreihendaten (Implementierung)
Wie man Problemdaten mit Paiza liest
Anfängern gewidmet! Wie man mit so wenig Geld wie möglich das Programmieren lernt
Erstellen von CSV-Beispieldaten mit Hypothese
Wie man Spaß am Programmieren mit Minecraft hat (Ruby, Python)
So löschen Sie ein Protokoll mit Docker, nicht um ein Protokoll zu sammeln
[Django] So erhalten Sie Daten durch Angabe von SQL.
[Python] Lesen von Daten aus CIFAR-10 und CIFAR-100
So kratzen Sie Pferderenndaten mit Beautiful Soup
Verwendung von Datenanalysetools für Anfänger
[Einführung in Python] Umgang mit Daten im JSON-Format
So erhalten Sie Artikeldaten mithilfe der Qiita-API
So erstellen Sie Daten für CNN (Chainer)
Lesen von Zeitreihendaten in PyTorch
So suchen Sie HTML-Daten mit Beautiful Soup
Datenbereinigung Umgang mit fehlenden und Ausreißern
[Für Anfänger] Wie man Programmierung studiert Private Memo
So wenden Sie mit matplotlib Marker nur auf bestimmte Daten an
[Für Anfänger] So studieren Sie den Python3-Datenanalysetest
So kratzen Sie Bilddaten von Flickr mit Python
Wie man Pferderenndaten mit pandas read_html kratzt
So erstellen Sie während des Codierens schnell Beispieldaten für ein Array
So konvertieren Sie horizontal gehaltene Daten mit Pandas in vertikal gehaltene Daten
So erhalten Sie mit SQLAlchemy + MySQLdb mehr als 1000 Daten
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
So führen Sie das Lernen mit SageMaker ohne Sitzungszeitlimit durch
Versuchen Sie, Twitter-Daten in SPAM und HAM zu unterteilen
Ich dachte darüber nach, wie man kostenlos Programmieren lernt.
Wie man Python auf Android genießt !! Programmieren für unterwegs !!
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
Verwendung von xml.etree.ElementTree
Verwendung von virtualenv
Schaben 2 Wie man kratzt
Wie benutzt man Seaboan?
Verwendung von Image-Match
Wie man Shogun benutzt
So installieren Sie Python
Verwendung von Pandas 2
Wie man PyPI liest
So installieren Sie pip
Verwendung von Virtualenv
Verwendung von numpy.vectorize
So aktualisieren Sie easy_install
So installieren Sie archlinux
Verwendung von pytest_report_header
Wie man Gunicorn neu startet
So installieren Sie Python
Wie zum virtuellen Host
Wie man Selen debuggt
Wie man teilweise verwendet