Auf Twitter "Einstellungen"> "Konten"> "Twiter-Daten"> "Archiv herunterladen" Wie Sie wissen, gibt es eine Funktion zum Herunterladen aller Ihrer vergangenen Tweets.
Die heruntergeladene Datei enthält Informationen zu früheren Tweets, RT-Tweets, bevorzugten Tweets, Direktnachrichten usw. (Es scheint, dass Sie durchsuchen können, indem Sie index.html öffnen, das normalerweise zusammen heruntergeladen wird, aber in meinem Fall wurde index.html nicht heruntergeladen. Warum?)
Praktisch, um Ihre eigenen Tweets zu visualisieren und gleichzeitig BERT zu verstehen ↑ Ich habe es nach dem Lesen dieses Artikels bemerkt.
[Gelöst] Ich kann nicht den gesamten Tweet-Verlauf auf Twitter herunterladen [Methode]
Wenn Sie Text Mining oder eine Analyse durchführen möchten, sollten Sie tweet.json lesen. In diesem Artikel werden wir diese JSON-Datei in eine CSV-Datei umwandeln, die für die morphologische Analyse einfach zu verwenden ist. Die zu erstellende CSV besteht aus zwei Spalten: "Zeitstempel" und "Textkörper".
Bild von CSV, das endlich erstellt werden kann
Umgebung Python 3.6.5 Mac OS Mojave 10.14.4
pandas==0.23.0
Wenn ich den heruntergeladenen JSON öffne, sieht es meiner Meinung nach so aus.
Rot unterstrichen
window.YTD.tweet.part0 =
Ist nicht notwendig, also bitte löschen. Ändern Sie dann die Erweiterung in .txt und legen Sie sie in Ihrem Arbeitsverzeichnis ab.
read_dl_tweet.py
import pandas as pd
import json
tweets_file = open("tweet.txt", "r")
tweet = json.load(tweets_file)
Öffnen Sie json im obigen Skript als Pandas-Datenrahmen. Es gibt viele Spalten, aber nur die erforderlichen Spalten werden extrahiert.
read_dl_tweet.py
df = tweet_data_frame.loc[:,["created_at","full_text"]]
Entfernen Sie diese, da beim Erstellen von CSV störende Zeichen wie Zeilenumbrüche und Kommas auftreten. Ohne Regex = True hat es nicht funktioniert.
read_dl_tweet.py
df = df.replace(['\n',',',' ','\r'],'',regex=True)
Außerdem hat das Format des Zeitstempels eine Form, die nicht zum Sortieren verwendet werden kann. Korrigieren Sie es daher, um das Lesen zu erleichtern. Ich konnte es mit der to_datetime-Methode von pandas auf einmal konvertieren.
read_dl_tweet.py
df_date = pd.to_datetime(df["created_at"])
df["date_form"] = df_date
df_sorted = df.sort_values("date_form")
df_text_date = df_sorted.loc[:,["date_form","full_text"]]
Sortiert nach dem neu erstellten Zeitstempel.
read_dl_tweet.py
df_text_date.to_csv("df_text_date.csv", header=False, index=False,sep=',',encoding='utf-16')
Ändern Sie die Optionen bei der Ausgabe von CSV entsprechend (z. B. indem Sie das Trennzeichen zu einer Registerkarte machen).
In Nächster Artikel werde ich versuchen, die Anzahl der Tweets für jeden Zeitraum aus der erstellten CSV grafisch darzustellen.
Dieser Code: https://github.com/KanikaniYou/plot_tweet_graph