[PYTHON] Ich habe die Tweets über den neuen Corona-Virus analysiert, die auf Twitter Teil 2 veröffentlicht wurden

Überblick

Dies ist eine Fortsetzung von Letztes Mal.

Wir werden den Datensatz, den wir zuletzt erstellt haben, zur weiteren Analyse erweitern.

Die Ziele dieses Artikels sind zwei Dinge:

――Verstehen, wie sich das Thema des neuen Koronavirus auf Twitter ändert

In Bezug auf die oben genannten Ziele werden wir die auf Twitter veröffentlichten Tweet-Daten analysieren.

Datendetails

Die in diesem Artikel verwendeten Tweet-Daten umfassen "Corona", "COVID-19" und "Infektionskrankheiten", die zwischen dem 1. Januar 2020 und dem 30. April 2020 veröffentlicht wurden. Dies ist ein Tweet. Jeder im Datensatz enthaltene Tweet war mehr als 100 Mal RT.

(Seit dem letzten Datensatz wurden dem Datensatz Tweets im Wert von 29 Tagen hinzugefügt.)

Die Größe des Datensatzes war das letzte Mal: 47071-> diesmal: 79562.

日毎のツイート数.png

Die obige Abbildung zeigt die Anzahl der Tweets für jeden Tag für den erstellten Datensatz. Die eingekreisten Zahlen in der Figur entsprechen jeder Überlegung unten. (Siehe Vorheriger Artikel für eine Diskussion von 01/01 bis 04/01 in dieser Grafik.)

Analyse häufig verwendeter Wörter

Aus der Häufigkeit des Auftretens von Wörtern in täglichen Tweets kann geschlossen werden, was der Benutzer an diesem Tag interessiert hat. In diesem Artikel haben wir die folgende Vorverarbeitung auf alle Tweets angewendet.

def pre_process(texts):
    texts_mod = []
    for text in tqdm(texts):
        text = re.sub(r'd+', '', text) #Entfernen von Nummern(Nicht notwendig?)
        text = zenhan.z2h(text) #Vollwinkel bis Halbwinkel
        text = mecab_wakati(text) #Teilen(Dies allein kann ausreichen)
        text = text.lower() #Vereinheitlichung der Zeichentypen

        stopwords = load_stopwords()
        #Stoppwort entfernen(Nicht notwendig?)
        for sw in stopwords:
            if sw in text:
                text = text.replace(sw, '')
                
        texts_mod.append(text)

    return texts_mod

Die morphologische Analyse extrahiert jedoch nur die Nomenklatur, Adjektive und Adjektivverben des Tweets.

Als nächstes fassen wir die Wörter eines jeden Tages zusammen und geben die häufig verwendeten Wörter aus.

** Tabelle: Täglich häufige Wörter (Zum Vergrößern anklicken) **
Datum Häufige Wörter
2020-02-01 Lungenentzündung,Abwesend,Corona Wils,Gegenmaßnahmen,Erweiterung,Wils,Wuhan,Verhütung,Medizinisch,Alcor
2020-02-02 Lungenentzündung,Wuhan,Gegenmaßnahmen,Behandlung,Corona Wils,Wils,Inflenza,Ankündigung,Erweiterung,Tod
2020-02-03 Lungenentzündung,Erweiterung,Inspektion,Gegenmaßnahmen,Wuhan,Inflenza,Wils,Corona Wils,Diffusion,Maske
2020-02-04 Lungenentzündung,Wuhan,Bestätigung,Krankenhaus,Erweiterung,Abwesend,Hongkong, who,Gegenmaßnahmen,Tod
2020-02-05 Lungenentzündung,Maske,Kreuzfahrt,Bestätigung,Inspektion,Abwesend,Wuhan,Gegenmaßnahmen,Wils,Erweiterung
2020-02-06 Lungenentzündung,Wuhan,Wils,Corona Wils,Korrespondenz,Maske,Inspektion,die Studium,Einschlag,Abwesend
2020-02-07 Arzt,Kreuzfahrt,Lungenentzündung,Bestätigung,Wils,Erweiterung,Corona Wils,Inflenza,Wuhan,Abwesend
2020-02-08 Lungenentzündung,Wuhan,Tod,Maske,Corona Wils,Ankündigung,Krankenhausaufenthalt,Zweifel,Abwesend,Gegenmaßnahmen
2020-02-09 Lungenentzündung,Aerosol,Corona Wils,Kreuzfahrt,Bestätigung,Gegenmaßnahmen,Abwesend, who,Wuhan,Erweiterung
2020-02-10 Kreuzfahrt,Inspektion,Lungenentzündung,Bestätigung,Gegenmaßnahmen,Corona Wils,Ankündigung,Erweiterung,Wuhan,Korrespondenz
2020-02-11 Lungenentzündung,Corona Wils,Korrespondenz,Wuhan,Bestätigung,Medizinisch,Abwesend,Abe,Gegenmaßnahmen,Inspektion
2020-02-12 covid,Quarantäne,Lungenentzündung, who,Inspektion,Gegenmaßnahmen,Maske,Kreuzfahrt,Abwesend,Wils
2020-02-13 Bestätigung,Tod,Lungenentzündung,Inspektion,Operation,Tokio,Taxi,Kanagawa,Aktuelle Nachrichten,Gegenmaßnahmen
2020-02-14 Gegenmaßnahmen,Bestätigung,Inspektion,Abe,Korrespondenz,Lungenentzündung,Erweiterung,Abwesend,Ankündigung,Arzt
2020-02-15 Gegenmaßnahmen,Inspektion,Abe,Korrespondenz,Corona Wils,Abwesend,Bestätigung,Verwaltung,Tokio,Spezialität
2020-02-16 Gegenmaßnahmen,Abe,Inspektion,Korrespondenz,Abwesend,Lungenentzündung,Spezialität,Erweiterung,Corona Wils,Bestätigung
2020-02-17 Gegenmaßnahmen,Erweiterung,Abwesend,Corona Wils,Ankündigung,Abe,Opposition,Inspektion,Korrespondenz,Lungenentzündung
2020-02-18 Gegenmaßnahmen,Opposition,Korrespondenz,Inspektion,Symptome,Lungenentzündung,Gehaltenen,Abwesend,Bestätigung,Erweiterung
2020-02-19 Gegenmaßnahmen,Iwata,Spezialität,Prinz,Dymond,Erweiterung,Abe,Korrespondenz, covid,Kentaro
2020-02-20 Gegenmaßnahmen,Gehaltenen,Kreuzfahrt,Bestätigung,Erweiterung,Iwata,Veranstaltung,Korrespondenz,Pläne,Abwesend
2020-02-21 Erweiterung,Bestätigung,Gegenmaßnahmen,Inspektion,Lungenentzündung,Gehaltenen,Bitte,Beachten,Pläne,Veranstaltung
2020-02-22 Inspektion,Gegenmaßnahmen,Bestätigung,Erweiterung,Lungenentzündung,Korrespondenz,Kreuzfahrt,Corona Wils,Wils,Abe
2020-02-23 Inspektion,Gegenmaßnahmen,Abe,Abwesend,Korrespondenz,Corona Wils,Lungenentzündung,Bestätigung,Erweiterung,Wils
2020-02-24 Inspektion,Gegenmaßnahmen,Abe,Abwesend,Erweiterung,Korrespondenz,Lungenentzündung,Krankenhaus,Ankündigung,Corona Wils
2020-02-25 Inspektion,Gegenmaßnahmen,Erweiterung,Abwesend,Gehaltenen,Korrespondenz,Corona Wils,Aufgeschoben,Abe,Bestätigung
2020-02-26 Inspektion,Erweiterung,Gegenmaßnahmen,Gehaltenen,Beachten,Performance,Veranstaltung,Aufgeschoben,Korrespondenz,Pläne
2020-02-27 Erweiterung,Gegenmaßnahmen,Beachten,Gehaltenen,Inspektion,Veranstaltung,Pläne,Performance,Aufgeschoben,Verhütung
2020-02-28 Erweiterung,Gegenmaßnahmen,Beachten,Verhütung,Gehaltenen,Inspektion,Abe,Bestätigung,Budget,Bitte
2020-02-29 Gegenmaßnahmen,Abe,Inspektion,Bestätigung,Erweiterung,Korrespondenz,Abwesend,Corona Wils,Ankündigung,Lungenentzündung
2020-03-01 Gegenmaßnahmen,Inspektion,Abwesend,Abe,Erweiterung,Maske,Corona Wils,Lungenentzündung,Bestätigung,Korrespondenz
2020-03-02 Erweiterung,Gegenmaßnahmen,Abe,Inspektion,Einschlag,Corona Wils,Spezialität,Notfall,Abwesend,Beachten
2020-03-03 Erweiterung,Gegenmaßnahmen,Lungenentzündung,Inspektion,Abwesend,Bestätigung,Abe,Einschlag,Wuhan,Notfall
2020-03-04 Erweiterung,Gegenmaßnahmen,Abe,Inspektion,Bestätigung,Abwesend,Lungenentzündung,Notfall,Korrespondenz,Gehaltenen
2020-03-05 Gegenmaßnahmen,Abe,Erweiterung,Bestätigung,Abwesend,Einschlag,Ankündigung,Aufgeschoben,Notfall,Korrespondenz
2020-03-06 Gegenmaßnahmen,Erweiterung,Inspektion,Einschlag,Bestätigung,Abwesend,Abe,Korrespondenz,Gehaltenen,Corona Wils
2020-03-07 Gegenmaßnahmen,Abe,Inspektion,Erweiterung,Maske,Bestätigung,Abwesend,Korrespondenz,Medizinisch,Einschlag
2020-03-08 Gegenmaßnahmen,Inspektion,Abwesend,Abe,Bestätigung,Corona Wils,Italien,Wils,Erweiterung,Krankenhaus
2020-03-09 Gegenmaßnahmen,Erweiterung,Abe,Einschlag,Abwesend,Medizinisch,Inspektion,Notfall,Aufgeschoben,Wils
2020-03-10 Gegenmaßnahmen,Erweiterung,Inspektion,Abwesend,Spezialität,Abe,Notfall,Korrespondenz,Wils,Einschlag
2020-03-11 Inspektion,Erweiterung,Gehaltenen,Abwesend,Gegenmaßnahmen,Einschlag,Medizinisch,Pläne,Aufgeschoben,Verbrauch
2020-03-12 Inspektion,Gegenmaßnahmen,Erweiterung,Medizinisch,Abwesend,Ankündigung,Pandemick, who,Einschlag,Pläne
2020-03-13 Gegenmaßnahmen,Erweiterung,Inspektion,Aufgeschoben,Einschlag,Gehaltenen,Ankündigung,Möglich,Notfall,Pläne
2020-03-14 Inspektion,Gegenmaßnahmen,Abe,Abwesend,Erklärung,Präsident,Korrespondenz,Erweiterung,Corona Wils,Tramp
2020-03-15 Inspektion,Gegenmaßnahmen,Erweiterung,Abwesend,Medizinisch,Krankenhaus,Abe,Einschlag,Korrespondenz,Notfall
2020-03-16 Inspektion,Gegenmaßnahmen,Erweiterung,Korrespondenz,Abwesend,Corona Wils,Lungenentzündung,Einschlag,Abe,Italien
2020-03-17 Inspektion,Erweiterung,Gegenmaßnahmen,Bestätigung,Abe,Abwesend,Einschlag, who,Performance,Gehaltenen
2020-03-18 Gegenmaßnahmen,Erweiterung,Inspektion,Wils,Abwesend,Einschlag,Gehaltenen,Tod,Pläne,Leistungen
2020-03-19 Erweiterung,Gegenmaßnahmen,Inspektion,Einschlag,Abwesend,Wirtschaft,Bestätigung,Gehaltenen,Osaka,Korrespondenz
2020-03-20 Erweiterung,Gegenmaßnahmen,Abwesend,Inspektion,Ankündigung,Einschlag,Gehaltenen,Bestätigung,Italien,Aufgeschoben
2020-03-21 Gegenmaßnahmen,Erweiterung,Inspektion,Abwesend,Tokio,Einschlag,Italien,Krankenhaus,Gehaltenen,Ankündigung
2020-03-22 Gegenmaßnahmen,Inspektion,Erweiterung,Abwesend,Selbstbeherrschung,Wirtschaft,Bestätigung,Einschlag,Italien,Rahmen
2020-03-23 Gegenmaßnahmen,Erweiterung,Tokio,Abwesend,Aufgeschoben,Gehaltenen,Wirtschaft,Ankündigung,Inspektion,Bestätigung
2020-03-24 Gegenmaßnahmen,Aufgeschoben,Tokio,Erweiterung,Inspektion,Einschlag,Abwesend,Medizinisch,Gehaltenen,Wirtschaft
2020-03-25 Gegenmaßnahmen,Tokio,Wirtschaft,Inspektion,Aufgeschoben,Bestätigung,Erweiterung,Einschlag,Abwesend,Notfall
2020-03-26 Gegenmaßnahmen,Erweiterung,Tokio,Selbstbeherrschung,Inspektion,Beachten,Bestätigung,Abwesend,Einschlag,Aufgeschoben
2020-03-27 Erweiterung,Gegenmaßnahmen,Inspektion,Tokio,Selbstbeherrschung,Einschlag,Bestätigung,Ankündigung,Beachten,Gehaltenen
2020-03-28 Gegenmaßnahmen,Bestätigung,Erweiterung,Selbstbeherrschung,Tokio,Abwesend,Abe,Inspektion,Medizinisch,Krankenhaus
2020-03-29 Gegenmaßnahmen,Selbstbeherrschung,Abwesend,Tokio,Inspektion,Erweiterung,Bestätigung,Wirtschaft,Krankenhaus,Abe
2020-03-30 Ken,Gegenmaßnahmen,Erweiterung,Tokio,Lungenentzündung,Abwesend,Ist gestorben,Bestätigung,Selbstbeherrschung,Inspektion
2020-03-31 Erweiterung,Gegenmaßnahmen,Bestätigung,Tokio,Ankündigung,Selbstbeherrschung,Abwesend,Einschlag,Inspektion,Bitte
2020-04-01 Gegenmaßnahmen,Bestätigung,Erweiterung,Maske,Medizinisch,Abwesend,Tokio,Ankündigung,Abe,Status
2020-04-02 Maske,Erweiterung,Gegenmaßnahmen,Bestätigung,Tokio,Medizinisch,Abwesend,Inspektion,Unterstützung,Einschlag
2020-04-03 Erweiterung,Gegenmaßnahmen,Leistungen,Bestätigung,Tokio,Haushalt,Einschlag, nhk,Beachten,Gehaltenen
2020-04-04 Gegenmaßnahmen,Erweiterung,Bestätigung,Inspektion,Medizinisch,Maske,Tokio,Krankenhaus,Abwesend, nhk
2020-04-05 Gegenmaßnahmen,Tokio,Erweiterung,Inspektion,Medizinisch,Abwesend,Bestätigung,Krankenhaus,Selbstbeherrschung,Corona Wils
2020-04-06 Notfall,Erweiterung,Gegenmaßnahmen,Erklärung,Inspektion,Tokio,Einschlag,Beachten,Selbstbeherrschung,Bestätigung
2020-04-07 Notfall,Erklärung,Erweiterung,Gegenmaßnahmen,Tokio,Beachten,Bestätigung,Abwesend,Geschlossen,Bitte
2020-04-08 Erweiterung,Gegenmaßnahmen,Notfall,Erklärung,Bestätigung,Einschlag,Beachten,Abwesend,Selbstbeherrschung,Aufgeschoben
2020-04-09 Gegenmaßnahmen,Erweiterung,Bestätigung,Notfall,Inspektion,Erklärung,Einschlag,Tokio,Abwesend,Medizinisch
2020-04-10 Erweiterung,Gegenmaßnahmen,Bestätigung,Einschlag,Inspektion,Medizinisch,Notfall,Abwesend,Tokio,Beachten
2020-04-11 Gegenmaßnahmen,Erweiterung,Abe,Abwesend,Inspektion,Selbstbeherrschung,Medizinisch,Bestätigung,Notfall,Krankenhaus
2020-04-12 Gegenmaßnahmen,Inspektion,Bestätigung,Abe,Erweiterung,Medizinisch,Abwesend,Maske,Krankenhaus,Tokio
2020-04-13 Erweiterung,Gegenmaßnahmen,Notfall,Inspektion,Einschlag,Bestätigung,Abwesend,Erklärung,Geschlossen,Ankündigung
2020-04-14 Erweiterung,Gegenmaßnahmen,Notfall,Medizinisch,Einschlag,Bestätigung,Korrespondenz,Abwesend,Krankenhaus,Abe
2020-04-15 Gegenmaßnahmen,Erweiterung,Krankenhaus,Medizinisch,Abe,Abwesend,Korrespondenz,Einschlag,Tokio,Bestätigung
2020-04-16 Gegenmaßnahmen,Erweiterung,Leistungen,Notfall,Abwesend,Medizinisch,Inspektion,Unterstützung,Einschlag,Maske
2020-04-17 Gegenmaßnahmen,Erweiterung,Inspektion,Notfall,Medizinisch,Einschlag,Korrespondenz,Abe,Leistungen,Abwesend
2020-04-18 Medizinisch,Gegenmaßnahmen,Inspektion,Abwesend,Erweiterung,Bestätigung,Maske,Abe,Krankenhaus,notwendig
2020-04-19 Gegenmaßnahmen,Medizinisch,Erweiterung,Abwesend,Maske,Inspektion,Korrespondenz,die Studium,Einschlag,Krankenhaus
2020-04-20 Inspektion,Gegenmaßnahmen,Erweiterung,Medizinisch,Einschlag,Bestätigung,Abwesend, pcr,Hat sich herausgestellt,Abe
2020-04-21 Gegenmaßnahmen,Erweiterung,Einschlag,Abwesend,Medizinisch,Leistungen,Maske,Inspektion,Abe,Unterstützung
2020-04-22 Inspektion,Erweiterung,Gegenmaßnahmen,Medizinisch,Abwesend,Bestätigung,Einschlag, pcr, nhk,Selbstbeherrschung
2020-04-23 Okae,Inspektion,Kumi,Medizinisch,Krankenhaus,Erweiterung,Gegenmaßnahmen,Abwesend,Zuhause,Unterstützung
2020-04-24 Erweiterung,Inspektion,Gegenmaßnahmen,Medizinisch,Einschlag,Bestätigung,Abwesend, nhk,Tokio,Bitte
2020-04-25 Inspektion,Gegenmaßnahmen,Medizinisch,Erweiterung,Selbstbeherrschung,Wirtschaft,Bestätigung,Abwesend, nhk,Unterstützung
2020-04-26 Inspektion,Gegenmaßnahmen,Medizinisch,Abwesend,Maske,Selbstbeherrschung,Erweiterung,Einschlag,Tokio, rt
2020-04-27 Gegenmaßnahmen,Erweiterung,Inspektion,Medizinisch,Unterstützung,Abwesend,Selbstbeherrschung,Einschlag,Wirtschaft,Neu
2020-04-28 Erweiterung,Inspektion,Gegenmaßnahmen,Einschlag,Abwesend,Unterstützung,Medizinisch,Tokio, news, nhk
2020-04-29 Gegenmaßnahmen,Inspektion,Notfall,Erweiterung,Medizinisch,Abwesend,Einschlag,Symptome,Abe,Wirtschaft
2020-04-30 Inspektion,Gegenmaßnahmen,Erweiterung,Medizinisch,Einschlag,Abwesend,Abe,Selbstbeherrschung,Unterstützung,Bestätigung

Die obige Tabelle zeigt die 10 am häufigsten verwendeten Wörter für jeden Tag von Februar bis April. "Colon Wils", "COVID-19" und "Infektionskrankheiten" sind jedoch von der Ausgabe ausgeschlossen. Außerdem werden die Teile der Tabelle, auf die Sie achten möchten, rot angezeigt.

(1) Von Januar bis Anfang Februar wurden die Symptome des neuen Koronavirus wie "Lungenentzündung", "Infruenza", "Muhan", "Bestätigung" und "Kreuzfahrt" sowie die Trends bei Kriegern und Kreuzfahrtschiffen, bei denen infizierte Personen bestätigt wurden, erörtert. Sie können sehen, dass.

(2) Seit dem 14. Februar sind häufig Wörter im Zusammenhang mit Trends in der japanischen Verwaltung wie "Gegenmaßnahmen", "Ankündigungen" und "Antworten" aufgetaucht, und es kann bestätigt werden, dass sich Themen geändert haben, die für Benutzer von Interesse sind. In der Grafik unter Datendetails hat die Anzahl der Tweets seit dem 14. Februar stark zugenommen. Es wird erwartet, dass Benutzer mehr an administrativen Trends interessiert sind als an den Schäden, die durch das neue Corona-Virus selbst verursacht werden.

(3) In Bezug auf den 26. Februar war im vorherigen Artikel die Ursache aufgrund der Zunahme der Anzahl der Tweets unbekannt. Hier gibt es viele häufig verwendete Wörter, die sich auf Ereignisse wie "Halten", "Vortrag", "Ereignis" und "Verschiebung" beziehen. Aus diesem Grund ist es wahrscheinlich, dass die Anzahl der Tweets und die Anzahl der RTs aufgrund der Tatsache zunahm, dass das für den Benutzer interessante Ereignis aufgrund des Einflusses des neuen Koronavirus verschoben wurde.

Darüber hinaus wird von (1) bis (3) oben angenommen, dass Benutzer eher an Dingen interessiert sind, die näher an ihnen auftreten. (Wuhan und Kreuzfahrtschiffe-> Reaktion der Regierung-> Verschiebung von Ereignissen, und der Inhalt ist in der Reihenfolge bekannt (direkt verwandt).)

④ Nach dem 23. März ist das Wort "Tokio" in häufigen Worten aufgetaucht. Es wird angenommen, dass dies auf die rasche Zunahme infizierter Menschen in Tokio zurückzuführen ist. In der Grafik unter [Details der Daten](#Details of data) hat die Anzahl der Tweets seit diesem Datum rapide zugenommen, sodass ersichtlich ist, dass großes Interesse an den Trends in Tokio besteht. ..

⑤ Vom 6. bis 7. April wurden in mehreren Städten, einschließlich Tokio, Notfallerklärungen erwähnt. Es wird vermutet, dass viele Benutzer an den Inhalten interessiert waren, da sie aufgrund der Aufforderung, nicht auszugehen, und der Schließung verschiedener Geschäfte eng mit dem täglichen Leben verbunden sind.

⑥ Am 19. Februar, 30. März und 23. April gibt es "Posts über Kentaro Iwatas Kreuzfahrtschiff", "Ken Shimuras Nachrichten" und "Kumiko Okaes Nachrichten", die jeden Tag häufig verwendet werden. Sie können sehen, dass es Auswirkungen hat. Außerdem können an jedem Tag des in Datendetails gezeigten Diagramms Peaks über mehrere Tage angezeigt werden. Von hier aus können wir sehen, dass sich viele Benutzer seit mehreren Tagen für diese Themen interessieren. Außerdem sind persönliche Themen wahrscheinlich weniger aktuell als Themen, die viele Benutzer betreffen.

Sagen Sie die Anzahl der RTs anhand der Bedeutung von Tweets voraus

Unterscheidet sich die Anzahl der RTs je nach Inhalt des Tweets und den enthaltenen Wörtern, indem der Inhalt des Tweets quantifiziert und ein Modell erstellt wird, das die Anzahl der RTs vorhersagt (wie beliebt)? Verifizieren.

Übersicht über das zu erstellende Modell

Hier wird der Inhalt des Tweets von TF-IDF quantifiziert und die Anzahl der RTs von Light GBM vorhergesagt.

TF-IDF Es gibt viele Kommentarartikel im Web. Weitere Informationen finden Sie in [^ 1] [^ 2]. Qualitativ handelt es sich um eine "Quantifizierung der Wichtigkeit jedes Wortes in einem Satz", und für jeden Tweet kann ein Vektor mit Dimensionen erhalten werden, die der Anzahl der in allen Tweets enthaltenen Wörter entsprechen. Als Ergebnis erhielt TF-IDF in diesem Datensatz eine Matrix von 79562 Tweets x 5236 6 Dimensionen.

Light GBM Weitere Informationen finden Sie im Kommentar im Internet [^ 3] [^ 4]. Dieses Modell ist eine Erweiterung des Entscheidungsbaums und kann zur Regression und Klassifizierung verwendet werden. Darüber hinaus können die Dimensionen, die zur Regression / Klassifizierung beigetragen haben, leicht ausgegeben werden, und durch Kombination mit TF-IDF kann "welcher Inhalt zur Anzahl der RTs beigetragen hat" leicht erfasst werden.

Dieses Mal wurden 80% der Tweets im Datensatz für das Modelltraining verwendet, und die restlichen 20% wurden zur Überprüfung der Genauigkeit und des Beitrags jeder Dimension (Test) verwendet. Daher kann das Problem, das LightGBM diesmal vorhersagt, als "Was ist der Inhalt, an dem Benutzer jederzeit in Bezug auf den neuen Koronavirus interessiert sind" interpretiert werden.

train_data = lgb.Dataset(x_train, label=y_train)
test_data = lgb.Dataset(x_test, label=y_test, reference= train_data)

params = {
    'task': 'train',
    'boosting_type': 'gbdt',
    'objective': 'regression'
}

gbm = lgb.train(
    params,
    train_data
)

preds = gbm.predict(x_test)

Ergebnis

Bewerten Sie quantitativ, wie gut das trainierte Modell die Anzahl der RTs vorhersagen kann. Hier verwenden wir die Indikatoren Mean Absolute Error (MAE) und Root Mean Square Error (RMSE), die häufig zur Bewertung von Regressionsmodellen verwendet werden, die numerische Werte vorhersagen. Ich werde die Details von jedem dem Kommentarartikel überlassen. Es ist leicht zu sagen, dass die Vorhersage umso genauer ist, je kleiner der Wert ist.

Wie gut ist es hier, wenn man nur die numerischen Werte jedes Bewertungsindex betrachtet? Daher ist es notwendig, es mit einem anderen Modell zu vergleichen. Dieses Mal vergleichen wir als Basis das Modell (BaseLine), das "immer vorhersagt, dass die RT-Nummer aller Tweets die durchschnittliche RT-Nummer des Datensatzes ist (1429.36)".

MAE RMSE
LightGBM 1462.95 4565.19
BaseLine 1429.36 4559.26

In der obigen Tabelle übertrifft BaseLine LightGBM in allen Bewertungsindikatoren, was darauf hindeutet, dass die Anzahl der RTs aus dem Inhalt des Tweets (TF-IDF + LightGBM) nicht mit hoher Genauigkeit vorhergesagt werden kann.

Lassen Sie uns auch die Feature-Wichtigkeit ausgeben, die durch die Anzahl der Erscheinungen in den Blättern von Light BGM jeder Dimension ausgedrückt wird.

importance = pd.DataFrame(gbm.feature_importance(), 
                index=x_condition.get_feature_names(), columns=['importance'])
display(importance.sort_values("importance", ascending=False).head(100))
Wort Feature Importance
Corona 138
Corona Wils 111
Komiker 99
Unser Unternehmen 95
rt 93
cov 85
vorteilhaft 81
Ryokan 78
Opa 77
just 77
Neues Modell 71
com 64

Je höher das Wort in der obigen Tabelle ist, desto mehr kann es als ein Wort interpretiert werden, das Light BGM als wichtig für die Vorhersage der Anzahl der RTs eingestuft hat. "Korona", "rt", "com (URL?)" Usw. sind jedoch in vielen Tweets enthalten, unabhängig von der Anzahl der RTs, und es kann qualitativ bestätigt werden, dass LightGBM nicht genau gelernt wurde. Andererseits ist "Comedian" wahrscheinlich ein Wort, das aus einem Tweet über Ken Shimura extrahiert wurde, und es wird auch angenommen, dass LightGBM das oben erwähnte Merkmal erfasst hat, dass "ein prominentes individuelles Thema einen steilen Höhepunkt erreicht". Kann gemacht werden.

Auf der Grundlage des oben Gesagten konnte LightGBM das Problem "Was ist der Inhalt, der für Benutzer zu irgendeinem Zeitpunkt in Bezug auf das neue Koronavirus von Interesse ist" und basierend auf der Analyse der oben genannten häufigen Wörter "Symptome, die durch das Virus verursacht werden" nicht erfolgreich lösen. "Trends in Japan" "Verschiebung von Ereignissen" ... Wenn sich die Interessen der Benutzer ändern, Es wurde vorgeschlagen, dass es keine "Tweets mit diesem Inhalt wird immer die Aufmerksamkeit der Benutzer zu jeder Zeit auf sich ziehen" bezüglich des neuen Corona-Virus geben.

Zusammenfassung

In diesem Artikel wurden die folgenden Punkte vorgeschlagen.

――Von den häufigen Wörtern von Tweets und dem Übergang der Anzahl von Tweets pro Tag über das Interesse des Benutzers

  • Bei Themen, an denen prominente Personen beteiligt sind, ist die Anzahl verwandter Tweets über mehrere Tage lokal am höchsten, aber der Rückgang ist schnell.
  • Benutzer interessieren sich mehr für Themen, da sie näher an ihnen sind. Überraschenderweise sind Benutzer mehr daran interessiert, das Ereignis zu verschieben als an der Infektionskrankheit selbst oder an der Reaktion der Regierung.

――Es gibt keinen Inhalt, der die Anzahl der RTs unabhängig von der Zeit sicher erhöht.

In Zukunft werden wir eine Analyse unter Verwendung von Benutzerinformationen durchführen, die auf der Hypothese basiert, dass "Tweets, die von bekannten Benutzern gesendet werden, wie die Anzahl der Follower und offiziellen Konten, von vielen Benutzern bemerkt werden und es einfacher sein wird, die Aufmerksamkeit des Benutzers zu erregen." Ich will das tun

[^ 1]: TF-IDF-Referenz (1): https://qiita.com/AwaJ/items/5937665d5a4152cc24cf [^ 2]: TF-IDF-Referenz (2): https://dev.classmethod.jp/articles/yoshim_2017ad_tfidf_1-2/ [^ 3]: LightGBM-Referenz (1): https://www.codexa.net/lightgbm-beginner/ [^ 4]: LightGBM-Referenz (2): https://qiita.com/ryo_naka/items/f479e5b7cb49fb55f150

Recommended Posts

Ich habe die Tweets über den neuen Corona-Virus analysiert, die auf Twitter Teil 2 veröffentlicht wurden
Ich habe die Tweets über den neuen Corona-Virus analysiert, die auf Twitter veröffentlicht wurden
(Jetzt) Ich habe versucht, das neue Koronavirus (COVID-19) zu analysieren.
Ich habe versucht, ein Skript zu erstellen, das die Tweets eines bestimmten Benutzers auf Twitter verfolgt und das veröffentlichte Bild sofort speichert
Ich habe versucht, PDF-Daten der medizinischen Online-Versorgung zu verwenden, die auf der Ausbreitung einer neuen Coronavirus-Infektion basieren
Ich habe mit Kaggle Start Book basierend auf Kaggle studiert [Teil 1]
Ich habe das Bild der Science University auf Twitter mit Word2Vec überprüft.
Zeichnen Sie die Ausbreitung des neuen Koronavirus
Holen Sie sich nur Bild-Tweets auf Twitter
Ich habe "Ich habe versucht, ein Skript zu erstellen, das gepostete Bilder sofort speichert, indem ich zu den Tweets eines bestimmten Benutzers auf Twitter zurückgekehrt bin" überarbeitet.
Ich habe versucht, das Verhalten des neuen Koronavirus mit dem SEIR-Modell vorherzusagen.
Folding @ Home unter Linux Mint soll zur Analyse des neuen Corona-Virus beitragen