Dies ist eine Fortsetzung von Letztes Mal.
Wir werden den Datensatz, den wir zuletzt erstellt haben, zur weiteren Analyse erweitern.
Die Ziele dieses Artikels sind zwei Dinge:
――Verstehen, wie sich das Thema des neuen Koronavirus auf Twitter ändert
In Bezug auf die oben genannten Ziele werden wir die auf Twitter veröffentlichten Tweet-Daten analysieren.
Die in diesem Artikel verwendeten Tweet-Daten umfassen "Corona", "COVID-19" und "Infektionskrankheiten", die zwischen dem 1. Januar 2020 und dem 30. April 2020 veröffentlicht wurden. Dies ist ein Tweet. Jeder im Datensatz enthaltene Tweet war mehr als 100 Mal RT.
(Seit dem letzten Datensatz wurden dem Datensatz Tweets im Wert von 29 Tagen hinzugefügt.)
Die Größe des Datensatzes war das letzte Mal: 47071-> diesmal: 79562.
Die obige Abbildung zeigt die Anzahl der Tweets für jeden Tag für den erstellten Datensatz. Die eingekreisten Zahlen in der Figur entsprechen jeder Überlegung unten. (Siehe Vorheriger Artikel für eine Diskussion von 01/01 bis 04/01 in dieser Grafik.)
Aus der Häufigkeit des Auftretens von Wörtern in täglichen Tweets kann geschlossen werden, was der Benutzer an diesem Tag interessiert hat. In diesem Artikel haben wir die folgende Vorverarbeitung auf alle Tweets angewendet.
def pre_process(texts):
texts_mod = []
for text in tqdm(texts):
text = re.sub(r'd+', '', text) #Entfernen von Nummern(Nicht notwendig?)
text = zenhan.z2h(text) #Vollwinkel bis Halbwinkel
text = mecab_wakati(text) #Teilen(Dies allein kann ausreichen)
text = text.lower() #Vereinheitlichung der Zeichentypen
stopwords = load_stopwords()
#Stoppwort entfernen(Nicht notwendig?)
for sw in stopwords:
if sw in text:
text = text.replace(sw, '')
texts_mod.append(text)
return texts_mod
Die morphologische Analyse extrahiert jedoch nur die Nomenklatur, Adjektive und Adjektivverben des Tweets.
Als nächstes fassen wir die Wörter eines jeden Tages zusammen und geben die häufig verwendeten Wörter aus.
Datum | Häufige Wörter |
---|---|
2020-02-01 | Lungenentzündung,Abwesend,Corona Wils,Gegenmaßnahmen,Erweiterung,Wils,Wuhan,Verhütung,Medizinisch,Alcor |
2020-02-02 | Lungenentzündung,Wuhan,Gegenmaßnahmen,Behandlung,Corona Wils,Wils,Inflenza,Ankündigung,Erweiterung,Tod |
2020-02-03 | Lungenentzündung,Erweiterung,Inspektion,Gegenmaßnahmen,Wuhan,Inflenza,Wils,Corona Wils,Diffusion,Maske |
2020-02-04 | Lungenentzündung,Wuhan,Bestätigung,Krankenhaus,Erweiterung,Abwesend,Hongkong, who,Gegenmaßnahmen,Tod |
2020-02-05 | Lungenentzündung,Maske,Kreuzfahrt,Bestätigung,Inspektion,Abwesend,Wuhan,Gegenmaßnahmen,Wils,Erweiterung |
2020-02-06 | Lungenentzündung,Wuhan,Wils,Corona Wils,Korrespondenz,Maske,Inspektion,die Studium,Einschlag,Abwesend |
2020-02-07 | Arzt,Kreuzfahrt,Lungenentzündung,Bestätigung,Wils,Erweiterung,Corona Wils,Inflenza,Wuhan,Abwesend |
2020-02-08 | Lungenentzündung,Wuhan,Tod,Maske,Corona Wils,Ankündigung,Krankenhausaufenthalt,Zweifel,Abwesend,Gegenmaßnahmen |
2020-02-09 | Lungenentzündung,Aerosol,Corona Wils,Kreuzfahrt,Bestätigung,Gegenmaßnahmen,Abwesend, who,Wuhan,Erweiterung |
2020-02-10 | Kreuzfahrt,Inspektion,Lungenentzündung,Bestätigung,Gegenmaßnahmen,Corona Wils,Ankündigung,Erweiterung,Wuhan,Korrespondenz |
2020-02-11 | Lungenentzündung,Corona Wils,Korrespondenz,Wuhan,Bestätigung,Medizinisch,Abwesend,Abe,Gegenmaßnahmen,Inspektion |
2020-02-12 | covid,Quarantäne,Lungenentzündung, who,Inspektion,Gegenmaßnahmen,Maske,Kreuzfahrt,Abwesend,Wils |
2020-02-13 | Bestätigung,Tod,Lungenentzündung,Inspektion,Operation,Tokio,Taxi,Kanagawa,Aktuelle Nachrichten,Gegenmaßnahmen |
2020-02-14 | Gegenmaßnahmen,Bestätigung,Inspektion,Abe,Korrespondenz,Lungenentzündung,Erweiterung,Abwesend,Ankündigung,Arzt |
2020-02-15 | Gegenmaßnahmen,Inspektion,Abe,Korrespondenz,Corona Wils,Abwesend,Bestätigung,Verwaltung,Tokio,Spezialität |
2020-02-16 | Gegenmaßnahmen,Abe,Inspektion,Korrespondenz,Abwesend,Lungenentzündung,Spezialität,Erweiterung,Corona Wils,Bestätigung |
2020-02-17 | Gegenmaßnahmen,Erweiterung,Abwesend,Corona Wils,Ankündigung,Abe,Opposition,Inspektion,Korrespondenz,Lungenentzündung |
2020-02-18 | Gegenmaßnahmen,Opposition,Korrespondenz,Inspektion,Symptome,Lungenentzündung,Gehaltenen,Abwesend,Bestätigung,Erweiterung |
2020-02-19 | Gegenmaßnahmen,Iwata,Spezialität,Prinz,Dymond,Erweiterung,Abe,Korrespondenz, covid,Kentaro |
2020-02-20 | Gegenmaßnahmen,Gehaltenen,Kreuzfahrt,Bestätigung,Erweiterung,Iwata,Veranstaltung,Korrespondenz,Pläne,Abwesend |
2020-02-21 | Erweiterung,Bestätigung,Gegenmaßnahmen,Inspektion,Lungenentzündung,Gehaltenen,Bitte,Beachten,Pläne,Veranstaltung |
2020-02-22 | Inspektion,Gegenmaßnahmen,Bestätigung,Erweiterung,Lungenentzündung,Korrespondenz,Kreuzfahrt,Corona Wils,Wils,Abe |
2020-02-23 | Inspektion,Gegenmaßnahmen,Abe,Abwesend,Korrespondenz,Corona Wils,Lungenentzündung,Bestätigung,Erweiterung,Wils |
2020-02-24 | Inspektion,Gegenmaßnahmen,Abe,Abwesend,Erweiterung,Korrespondenz,Lungenentzündung,Krankenhaus,Ankündigung,Corona Wils |
2020-02-25 | Inspektion,Gegenmaßnahmen,Erweiterung,Abwesend,Gehaltenen,Korrespondenz,Corona Wils,Aufgeschoben,Abe,Bestätigung |
2020-02-26 | Inspektion,Erweiterung,Gegenmaßnahmen,Gehaltenen,Beachten,Performance,Veranstaltung,Aufgeschoben,Korrespondenz,Pläne |
2020-02-27 | Erweiterung,Gegenmaßnahmen,Beachten,Gehaltenen,Inspektion,Veranstaltung,Pläne,Performance,Aufgeschoben,Verhütung |
2020-02-28 | Erweiterung,Gegenmaßnahmen,Beachten,Verhütung,Gehaltenen,Inspektion,Abe,Bestätigung,Budget,Bitte |
2020-02-29 | Gegenmaßnahmen,Abe,Inspektion,Bestätigung,Erweiterung,Korrespondenz,Abwesend,Corona Wils,Ankündigung,Lungenentzündung |
2020-03-01 | Gegenmaßnahmen,Inspektion,Abwesend,Abe,Erweiterung,Maske,Corona Wils,Lungenentzündung,Bestätigung,Korrespondenz |
2020-03-02 | Erweiterung,Gegenmaßnahmen,Abe,Inspektion,Einschlag,Corona Wils,Spezialität,Notfall,Abwesend,Beachten |
2020-03-03 | Erweiterung,Gegenmaßnahmen,Lungenentzündung,Inspektion,Abwesend,Bestätigung,Abe,Einschlag,Wuhan,Notfall |
2020-03-04 | Erweiterung,Gegenmaßnahmen,Abe,Inspektion,Bestätigung,Abwesend,Lungenentzündung,Notfall,Korrespondenz,Gehaltenen |
2020-03-05 | Gegenmaßnahmen,Abe,Erweiterung,Bestätigung,Abwesend,Einschlag,Ankündigung,Aufgeschoben,Notfall,Korrespondenz |
2020-03-06 | Gegenmaßnahmen,Erweiterung,Inspektion,Einschlag,Bestätigung,Abwesend,Abe,Korrespondenz,Gehaltenen,Corona Wils |
2020-03-07 | Gegenmaßnahmen,Abe,Inspektion,Erweiterung,Maske,Bestätigung,Abwesend,Korrespondenz,Medizinisch,Einschlag |
2020-03-08 | Gegenmaßnahmen,Inspektion,Abwesend,Abe,Bestätigung,Corona Wils,Italien,Wils,Erweiterung,Krankenhaus |
2020-03-09 | Gegenmaßnahmen,Erweiterung,Abe,Einschlag,Abwesend,Medizinisch,Inspektion,Notfall,Aufgeschoben,Wils |
2020-03-10 | Gegenmaßnahmen,Erweiterung,Inspektion,Abwesend,Spezialität,Abe,Notfall,Korrespondenz,Wils,Einschlag |
2020-03-11 | Inspektion,Erweiterung,Gehaltenen,Abwesend,Gegenmaßnahmen,Einschlag,Medizinisch,Pläne,Aufgeschoben,Verbrauch |
2020-03-12 | Inspektion,Gegenmaßnahmen,Erweiterung,Medizinisch,Abwesend,Ankündigung,Pandemick, who,Einschlag,Pläne |
2020-03-13 | Gegenmaßnahmen,Erweiterung,Inspektion,Aufgeschoben,Einschlag,Gehaltenen,Ankündigung,Möglich,Notfall,Pläne |
2020-03-14 | Inspektion,Gegenmaßnahmen,Abe,Abwesend,Erklärung,Präsident,Korrespondenz,Erweiterung,Corona Wils,Tramp |
2020-03-15 | Inspektion,Gegenmaßnahmen,Erweiterung,Abwesend,Medizinisch,Krankenhaus,Abe,Einschlag,Korrespondenz,Notfall |
2020-03-16 | Inspektion,Gegenmaßnahmen,Erweiterung,Korrespondenz,Abwesend,Corona Wils,Lungenentzündung,Einschlag,Abe,Italien |
2020-03-17 | Inspektion,Erweiterung,Gegenmaßnahmen,Bestätigung,Abe,Abwesend,Einschlag, who,Performance,Gehaltenen |
2020-03-18 | Gegenmaßnahmen,Erweiterung,Inspektion,Wils,Abwesend,Einschlag,Gehaltenen,Tod,Pläne,Leistungen |
2020-03-19 | Erweiterung,Gegenmaßnahmen,Inspektion,Einschlag,Abwesend,Wirtschaft,Bestätigung,Gehaltenen,Osaka,Korrespondenz |
2020-03-20 | Erweiterung,Gegenmaßnahmen,Abwesend,Inspektion,Ankündigung,Einschlag,Gehaltenen,Bestätigung,Italien,Aufgeschoben |
2020-03-21 | Gegenmaßnahmen,Erweiterung,Inspektion,Abwesend,Tokio,Einschlag,Italien,Krankenhaus,Gehaltenen,Ankündigung |
2020-03-22 | Gegenmaßnahmen,Inspektion,Erweiterung,Abwesend,Selbstbeherrschung,Wirtschaft,Bestätigung,Einschlag,Italien,Rahmen |
2020-03-23 | Gegenmaßnahmen,Erweiterung,Tokio,Abwesend,Aufgeschoben,Gehaltenen,Wirtschaft,Ankündigung,Inspektion,Bestätigung |
2020-03-24 | Gegenmaßnahmen,Aufgeschoben,Tokio,Erweiterung,Inspektion,Einschlag,Abwesend,Medizinisch,Gehaltenen,Wirtschaft |
2020-03-25 | Gegenmaßnahmen,Tokio,Wirtschaft,Inspektion,Aufgeschoben,Bestätigung,Erweiterung,Einschlag,Abwesend,Notfall |
2020-03-26 | Gegenmaßnahmen,Erweiterung,Tokio,Selbstbeherrschung,Inspektion,Beachten,Bestätigung,Abwesend,Einschlag,Aufgeschoben |
2020-03-27 | Erweiterung,Gegenmaßnahmen,Inspektion,Tokio,Selbstbeherrschung,Einschlag,Bestätigung,Ankündigung,Beachten,Gehaltenen |
2020-03-28 | Gegenmaßnahmen,Bestätigung,Erweiterung,Selbstbeherrschung,Tokio,Abwesend,Abe,Inspektion,Medizinisch,Krankenhaus |
2020-03-29 | Gegenmaßnahmen,Selbstbeherrschung,Abwesend,Tokio,Inspektion,Erweiterung,Bestätigung,Wirtschaft,Krankenhaus,Abe |
2020-03-30 | Ken,Gegenmaßnahmen,Erweiterung,Tokio,Lungenentzündung,Abwesend,Ist gestorben,Bestätigung,Selbstbeherrschung,Inspektion |
2020-03-31 | Erweiterung,Gegenmaßnahmen,Bestätigung,Tokio,Ankündigung,Selbstbeherrschung,Abwesend,Einschlag,Inspektion,Bitte |
2020-04-01 | Gegenmaßnahmen,Bestätigung,Erweiterung,Maske,Medizinisch,Abwesend,Tokio,Ankündigung,Abe,Status |
2020-04-02 | Maske,Erweiterung,Gegenmaßnahmen,Bestätigung,Tokio,Medizinisch,Abwesend,Inspektion,Unterstützung,Einschlag |
2020-04-03 | Erweiterung,Gegenmaßnahmen,Leistungen,Bestätigung,Tokio,Haushalt,Einschlag, nhk,Beachten,Gehaltenen |
2020-04-04 | Gegenmaßnahmen,Erweiterung,Bestätigung,Inspektion,Medizinisch,Maske,Tokio,Krankenhaus,Abwesend, nhk |
2020-04-05 | Gegenmaßnahmen,Tokio,Erweiterung,Inspektion,Medizinisch,Abwesend,Bestätigung,Krankenhaus,Selbstbeherrschung,Corona Wils |
2020-04-06 | Notfall,Erweiterung,Gegenmaßnahmen,Erklärung,Inspektion,Tokio,Einschlag,Beachten,Selbstbeherrschung,Bestätigung |
2020-04-07 | Notfall,Erklärung,Erweiterung,Gegenmaßnahmen,Tokio,Beachten,Bestätigung,Abwesend,Geschlossen,Bitte |
2020-04-08 | Erweiterung,Gegenmaßnahmen,Notfall,Erklärung,Bestätigung,Einschlag,Beachten,Abwesend,Selbstbeherrschung,Aufgeschoben |
2020-04-09 | Gegenmaßnahmen,Erweiterung,Bestätigung,Notfall,Inspektion,Erklärung,Einschlag,Tokio,Abwesend,Medizinisch |
2020-04-10 | Erweiterung,Gegenmaßnahmen,Bestätigung,Einschlag,Inspektion,Medizinisch,Notfall,Abwesend,Tokio,Beachten |
2020-04-11 | Gegenmaßnahmen,Erweiterung,Abe,Abwesend,Inspektion,Selbstbeherrschung,Medizinisch,Bestätigung,Notfall,Krankenhaus |
2020-04-12 | Gegenmaßnahmen,Inspektion,Bestätigung,Abe,Erweiterung,Medizinisch,Abwesend,Maske,Krankenhaus,Tokio |
2020-04-13 | Erweiterung,Gegenmaßnahmen,Notfall,Inspektion,Einschlag,Bestätigung,Abwesend,Erklärung,Geschlossen,Ankündigung |
2020-04-14 | Erweiterung,Gegenmaßnahmen,Notfall,Medizinisch,Einschlag,Bestätigung,Korrespondenz,Abwesend,Krankenhaus,Abe |
2020-04-15 | Gegenmaßnahmen,Erweiterung,Krankenhaus,Medizinisch,Abe,Abwesend,Korrespondenz,Einschlag,Tokio,Bestätigung |
2020-04-16 | Gegenmaßnahmen,Erweiterung,Leistungen,Notfall,Abwesend,Medizinisch,Inspektion,Unterstützung,Einschlag,Maske |
2020-04-17 | Gegenmaßnahmen,Erweiterung,Inspektion,Notfall,Medizinisch,Einschlag,Korrespondenz,Abe,Leistungen,Abwesend |
2020-04-18 | Medizinisch,Gegenmaßnahmen,Inspektion,Abwesend,Erweiterung,Bestätigung,Maske,Abe,Krankenhaus,notwendig |
2020-04-19 | Gegenmaßnahmen,Medizinisch,Erweiterung,Abwesend,Maske,Inspektion,Korrespondenz,die Studium,Einschlag,Krankenhaus |
2020-04-20 | Inspektion,Gegenmaßnahmen,Erweiterung,Medizinisch,Einschlag,Bestätigung,Abwesend, pcr,Hat sich herausgestellt,Abe |
2020-04-21 | Gegenmaßnahmen,Erweiterung,Einschlag,Abwesend,Medizinisch,Leistungen,Maske,Inspektion,Abe,Unterstützung |
2020-04-22 | Inspektion,Erweiterung,Gegenmaßnahmen,Medizinisch,Abwesend,Bestätigung,Einschlag, pcr, nhk,Selbstbeherrschung |
2020-04-23 | Okae,Inspektion,Kumi,Medizinisch,Krankenhaus,Erweiterung,Gegenmaßnahmen,Abwesend,Zuhause,Unterstützung |
2020-04-24 | Erweiterung,Inspektion,Gegenmaßnahmen,Medizinisch,Einschlag,Bestätigung,Abwesend, nhk,Tokio,Bitte |
2020-04-25 | Inspektion,Gegenmaßnahmen,Medizinisch,Erweiterung,Selbstbeherrschung,Wirtschaft,Bestätigung,Abwesend, nhk,Unterstützung |
2020-04-26 | Inspektion,Gegenmaßnahmen,Medizinisch,Abwesend,Maske,Selbstbeherrschung,Erweiterung,Einschlag,Tokio, rt |
2020-04-27 | Gegenmaßnahmen,Erweiterung,Inspektion,Medizinisch,Unterstützung,Abwesend,Selbstbeherrschung,Einschlag,Wirtschaft,Neu |
2020-04-28 | Erweiterung,Inspektion,Gegenmaßnahmen,Einschlag,Abwesend,Unterstützung,Medizinisch,Tokio, news, nhk |
2020-04-29 | Gegenmaßnahmen,Inspektion,Notfall,Erweiterung,Medizinisch,Abwesend,Einschlag,Symptome,Abe,Wirtschaft |
2020-04-30 | Inspektion,Gegenmaßnahmen,Erweiterung,Medizinisch,Einschlag,Abwesend,Abe,Selbstbeherrschung,Unterstützung,Bestätigung |
Die obige Tabelle zeigt die 10 am häufigsten verwendeten Wörter für jeden Tag von Februar bis April. "Colon Wils", "COVID-19" und "Infektionskrankheiten" sind jedoch von der Ausgabe ausgeschlossen. Außerdem werden die Teile der Tabelle, auf die Sie achten möchten, rot angezeigt.
(1) Von Januar bis Anfang Februar wurden die Symptome des neuen Koronavirus wie "Lungenentzündung", "Infruenza", "Muhan", "Bestätigung" und "Kreuzfahrt" sowie die Trends bei Kriegern und Kreuzfahrtschiffen, bei denen infizierte Personen bestätigt wurden, erörtert. Sie können sehen, dass.
(2) Seit dem 14. Februar sind häufig Wörter im Zusammenhang mit Trends in der japanischen Verwaltung wie "Gegenmaßnahmen", "Ankündigungen" und "Antworten" aufgetaucht, und es kann bestätigt werden, dass sich Themen geändert haben, die für Benutzer von Interesse sind. In der Grafik unter Datendetails hat die Anzahl der Tweets seit dem 14. Februar stark zugenommen. Es wird erwartet, dass Benutzer mehr an administrativen Trends interessiert sind als an den Schäden, die durch das neue Corona-Virus selbst verursacht werden.
(3) In Bezug auf den 26. Februar war im vorherigen Artikel die Ursache aufgrund der Zunahme der Anzahl der Tweets unbekannt. Hier gibt es viele häufig verwendete Wörter, die sich auf Ereignisse wie "Halten", "Vortrag", "Ereignis" und "Verschiebung" beziehen. Aus diesem Grund ist es wahrscheinlich, dass die Anzahl der Tweets und die Anzahl der RTs aufgrund der Tatsache zunahm, dass das für den Benutzer interessante Ereignis aufgrund des Einflusses des neuen Koronavirus verschoben wurde.
Darüber hinaus wird von (1) bis (3) oben angenommen, dass Benutzer eher an Dingen interessiert sind, die näher an ihnen auftreten. (Wuhan und Kreuzfahrtschiffe-> Reaktion der Regierung-> Verschiebung von Ereignissen, und der Inhalt ist in der Reihenfolge bekannt (direkt verwandt).)
④ Nach dem 23. März ist das Wort "Tokio" in häufigen Worten aufgetaucht. Es wird angenommen, dass dies auf die rasche Zunahme infizierter Menschen in Tokio zurückzuführen ist. In der Grafik unter [Details der Daten](#Details of data) hat die Anzahl der Tweets seit diesem Datum rapide zugenommen, sodass ersichtlich ist, dass großes Interesse an den Trends in Tokio besteht. ..
⑤ Vom 6. bis 7. April wurden in mehreren Städten, einschließlich Tokio, Notfallerklärungen erwähnt. Es wird vermutet, dass viele Benutzer an den Inhalten interessiert waren, da sie aufgrund der Aufforderung, nicht auszugehen, und der Schließung verschiedener Geschäfte eng mit dem täglichen Leben verbunden sind.
⑥ Am 19. Februar, 30. März und 23. April gibt es "Posts über Kentaro Iwatas Kreuzfahrtschiff", "Ken Shimuras Nachrichten" und "Kumiko Okaes Nachrichten", die jeden Tag häufig verwendet werden. Sie können sehen, dass es Auswirkungen hat. Außerdem können an jedem Tag des in Datendetails gezeigten Diagramms Peaks über mehrere Tage angezeigt werden. Von hier aus können wir sehen, dass sich viele Benutzer seit mehreren Tagen für diese Themen interessieren. Außerdem sind persönliche Themen wahrscheinlich weniger aktuell als Themen, die viele Benutzer betreffen.
Unterscheidet sich die Anzahl der RTs je nach Inhalt des Tweets und den enthaltenen Wörtern, indem der Inhalt des Tweets quantifiziert und ein Modell erstellt wird, das die Anzahl der RTs vorhersagt (wie beliebt)? Verifizieren.
Hier wird der Inhalt des Tweets von TF-IDF quantifiziert und die Anzahl der RTs von Light GBM vorhergesagt.
TF-IDF Es gibt viele Kommentarartikel im Web. Weitere Informationen finden Sie in [^ 1] [^ 2]. Qualitativ handelt es sich um eine "Quantifizierung der Wichtigkeit jedes Wortes in einem Satz", und für jeden Tweet kann ein Vektor mit Dimensionen erhalten werden, die der Anzahl der in allen Tweets enthaltenen Wörter entsprechen. Als Ergebnis erhielt TF-IDF in diesem Datensatz eine Matrix von 79562 Tweets x 5236 6 Dimensionen.
Light GBM Weitere Informationen finden Sie im Kommentar im Internet [^ 3] [^ 4]. Dieses Modell ist eine Erweiterung des Entscheidungsbaums und kann zur Regression und Klassifizierung verwendet werden. Darüber hinaus können die Dimensionen, die zur Regression / Klassifizierung beigetragen haben, leicht ausgegeben werden, und durch Kombination mit TF-IDF kann "welcher Inhalt zur Anzahl der RTs beigetragen hat" leicht erfasst werden.
Dieses Mal wurden 80% der Tweets im Datensatz für das Modelltraining verwendet, und die restlichen 20% wurden zur Überprüfung der Genauigkeit und des Beitrags jeder Dimension (Test) verwendet. Daher kann das Problem, das LightGBM diesmal vorhersagt, als "Was ist der Inhalt, an dem Benutzer jederzeit in Bezug auf den neuen Koronavirus interessiert sind" interpretiert werden.
train_data = lgb.Dataset(x_train, label=y_train)
test_data = lgb.Dataset(x_test, label=y_test, reference= train_data)
params = {
'task': 'train',
'boosting_type': 'gbdt',
'objective': 'regression'
}
gbm = lgb.train(
params,
train_data
)
preds = gbm.predict(x_test)
Bewerten Sie quantitativ, wie gut das trainierte Modell die Anzahl der RTs vorhersagen kann. Hier verwenden wir die Indikatoren Mean Absolute Error (MAE) und Root Mean Square Error (RMSE), die häufig zur Bewertung von Regressionsmodellen verwendet werden, die numerische Werte vorhersagen. Ich werde die Details von jedem dem Kommentarartikel überlassen. Es ist leicht zu sagen, dass die Vorhersage umso genauer ist, je kleiner der Wert ist.
Wie gut ist es hier, wenn man nur die numerischen Werte jedes Bewertungsindex betrachtet? Daher ist es notwendig, es mit einem anderen Modell zu vergleichen. Dieses Mal vergleichen wir als Basis das Modell (BaseLine), das "immer vorhersagt, dass die RT-Nummer aller Tweets die durchschnittliche RT-Nummer des Datensatzes ist (1429.36)".
MAE | RMSE | |
---|---|---|
LightGBM | 1462.95 | 4565.19 |
BaseLine | 1429.36 | 4559.26 |
In der obigen Tabelle übertrifft BaseLine LightGBM in allen Bewertungsindikatoren, was darauf hindeutet, dass die Anzahl der RTs aus dem Inhalt des Tweets (TF-IDF + LightGBM) nicht mit hoher Genauigkeit vorhergesagt werden kann.
Lassen Sie uns auch die Feature-Wichtigkeit ausgeben, die durch die Anzahl der Erscheinungen in den Blättern von Light BGM jeder Dimension ausgedrückt wird.
importance = pd.DataFrame(gbm.feature_importance(),
index=x_condition.get_feature_names(), columns=['importance'])
display(importance.sort_values("importance", ascending=False).head(100))
Wort | Feature Importance |
---|---|
Corona | 138 |
Corona Wils | 111 |
Komiker | 99 |
Unser Unternehmen | 95 |
rt | 93 |
cov | 85 |
vorteilhaft | 81 |
Ryokan | 78 |
Opa | 77 |
just | 77 |
Neues Modell | 71 |
com | 64 |
Je höher das Wort in der obigen Tabelle ist, desto mehr kann es als ein Wort interpretiert werden, das Light BGM als wichtig für die Vorhersage der Anzahl der RTs eingestuft hat. "Korona", "rt", "com (URL?)" Usw. sind jedoch in vielen Tweets enthalten, unabhängig von der Anzahl der RTs, und es kann qualitativ bestätigt werden, dass LightGBM nicht genau gelernt wurde. Andererseits ist "Comedian" wahrscheinlich ein Wort, das aus einem Tweet über Ken Shimura extrahiert wurde, und es wird auch angenommen, dass LightGBM das oben erwähnte Merkmal erfasst hat, dass "ein prominentes individuelles Thema einen steilen Höhepunkt erreicht". Kann gemacht werden.
Auf der Grundlage des oben Gesagten konnte LightGBM das Problem "Was ist der Inhalt, der für Benutzer zu irgendeinem Zeitpunkt in Bezug auf das neue Koronavirus von Interesse ist" und basierend auf der Analyse der oben genannten häufigen Wörter "Symptome, die durch das Virus verursacht werden" nicht erfolgreich lösen. "Trends in Japan" "Verschiebung von Ereignissen" ... Wenn sich die Interessen der Benutzer ändern, Es wurde vorgeschlagen, dass es keine "Tweets mit diesem Inhalt wird immer die Aufmerksamkeit der Benutzer zu jeder Zeit auf sich ziehen" bezüglich des neuen Corona-Virus geben.
In diesem Artikel wurden die folgenden Punkte vorgeschlagen.
――Von den häufigen Wörtern von Tweets und dem Übergang der Anzahl von Tweets pro Tag über das Interesse des Benutzers
――Es gibt keinen Inhalt, der die Anzahl der RTs unabhängig von der Zeit sicher erhöht.
In Zukunft werden wir eine Analyse unter Verwendung von Benutzerinformationen durchführen, die auf der Hypothese basiert, dass "Tweets, die von bekannten Benutzern gesendet werden, wie die Anzahl der Follower und offiziellen Konten, von vielen Benutzern bemerkt werden und es einfacher sein wird, die Aufmerksamkeit des Benutzers zu erregen." Ich will das tun
[^ 1]: TF-IDF-Referenz (1): https://qiita.com/AwaJ/items/5937665d5a4152cc24cf [^ 2]: TF-IDF-Referenz (2): https://dev.classmethod.jp/articles/yoshim_2017ad_tfidf_1-2/ [^ 3]: LightGBM-Referenz (1): https://www.codexa.net/lightgbm-beginner/ [^ 4]: LightGBM-Referenz (2): https://qiita.com/ryo_naka/items/f479e5b7cb49fb55f150
Recommended Posts