[PYTHON] [Twitter] Ich möchte die heruntergeladenen vergangenen Tweets (meines Kontos) in eine schöne CSV verwandeln

Auf Twitter "Einstellungen"> "Konten"> "Twiter-Daten"> "Archiv herunterladen" Wie Sie wissen, gibt es eine Funktion zum Herunterladen aller Ihrer vergangenen Tweets. スクリーンショット 2019-12-07 17.53.12.png

Die heruntergeladene Datei enthält Informationen zu früheren Tweets, RT-Tweets, bevorzugten Tweets, Direktnachrichten usw. (Es scheint, dass Sie durchsuchen können, indem Sie index.html öffnen, das normalerweise zusammen heruntergeladen wird, aber in meinem Fall wurde index.html nicht heruntergeladen. Warum?)

Nachskript 2019/12/15

Es scheint, dass index.html in eine Spezifikation geändert wurde, die überhaupt nicht heruntergeladen wurde.

Praktisch, um Ihre eigenen Tweets zu visualisieren und gleichzeitig BERT zu verstehen ↑ Ich habe es nach dem Lesen dieses Artikels bemerkt.

[Gelöst] Ich kann nicht den gesamten Tweet-Verlauf auf Twitter herunterladen [Methode]

Wenn Sie Text Mining oder eine Analyse durchführen möchten, sollten Sie tweet.json lesen. In diesem Artikel werden wir diese JSON-Datei in eine CSV-Datei umwandeln, die für die morphologische Analyse einfach zu verwenden ist. Die zu erstellende CSV besteht aus zwei Spalten: "Zeitstempel" und "Textkörper".

Bild von CSV, das endlich erstellt werden kann

Umgebung Python 3.6.5 Mac OS Mojave 10.14.4

pandas==0.23.0

Wenn ich den heruntergeladenen JSON öffne, sieht es meiner Meinung nach so aus.

Rot unterstrichen

window.YTD.tweet.part0 =

Ist nicht notwendig, also bitte löschen. Ändern Sie dann die Erweiterung in .txt und legen Sie sie in Ihrem Arbeitsverzeichnis ab.

`read_dl_tweet.py`


import pandas as pd
import json

tweets_file = open("tweet.txt", "r")
tweet = json.load(tweets_file)

Öffnen Sie json im obigen Skript als Pandas-Datenrahmen. Es gibt viele Spalten, aber nur die erforderlichen Spalten werden extrahiert.

`read_dl_tweet.py`


df = tweet_data_frame.loc[:,["created_at","full_text"]]

Entfernen Sie diese, da beim Erstellen von CSV störende Zeichen wie Zeilenumbrüche und Kommas auftreten. Ohne Regex = True hat es nicht funktioniert.

`read_dl_tweet.py`


df = df.replace(['\n',',','	','\r'],'',regex=True)

Außerdem hat das Format des Zeitstempels eine Form, die nicht zum Sortieren verwendet werden kann. Korrigieren Sie es daher, um das Lesen zu erleichtern. Ich konnte es mit der to_datetime-Methode von pandas auf einmal konvertieren.

`read_dl_tweet.py`


df_date = pd.to_datetime(df["created_at"])
df["date_form"] = df_date
df_sorted = df.sort_values("date_form") 
df_text_date = df_sorted.loc[:,["date_form","full_text"]]

Sortiert nach dem neu erstellten Zeitstempel.

`read_dl_tweet.py`


df_text_date.to_csv("df_text_date.csv", header=False, index=False,sep=',',encoding='utf-16')

Ändern Sie die Optionen bei der Ausgabe von CSV entsprechend (z. B. indem Sie das Trennzeichen zu einer Registerkarte machen).

In Nächster Artikel werde ich versuchen, die Anzahl der Tweets für jeden Zeitraum aus der erstellten CSV grafisch darzustellen.

Dieser Code: https://github.com/KanikaniYou/plot_tweet_graph