[PYTHON] Überprüfung der Scherzausbreitung der "Notfallerklärung am 1. April"

Einführung

Am Abend des 30. März 2020 verbreiteten sich im Internet Gerüchte, dass "die Regierung am 1. April einen Notfall erklären wird" und "Lockdown = Stadtblockade am folgenden 2. April".

Die FIJ (Fact Check Initiative), die die Verbreitung von Faktenprüfungen in Japan fördert, nimmt diese Angelegenheit als eine der unzuverlässigen Informationen auf.

Die Regierung erklärt am 1. April einen Notfall und sperrt die 2. Verbreitung auf LINE usw.

Bei einer Pressekonferenz heute Abend bestritt Außenminister Kan das Gerücht eindeutig [^ 1].

  1. März, 17:58 Uhr: [Online-Informationen zur "Stadtblockade" des Generalsekretärs "Keine solche Tatsache" | NHK News](https://www3.nhk.or.jp/news/html/20200330/k10012357971000. html)

Darüber hinaus wurde berichtet, dass Premierminister Abe dieses Gerücht in dieser Nacht ebenfalls bestritt.

  1. März, 20:11 Uhr: Notfallerklärung "Asatte-Erklärung ist ein Scherz" Premierminister Abe | NHK News

Ich war neugierig, wann sich dieses Gerücht so weit verbreitete, dass der Premierminister und der Außenminister es nicht übersehen konnten, also untersuchte ich es. Als Daten ist es einfach, die Nachrichtenseite und das Verbreitungsphänomen zu überprüfen, und es ist für Einzelpersonen einfach, Twitter-Such-API zu erhalten. api-reference / get-search-tweets) wird verwendet.

Wie wir später sehen werden, wird angenommen, dass die Quelle dieses Gerüchts LINE ist, sodass diese Überprüfung, bei der nur Twiitter und andere öffentlich verfügbare Daten verwendet werden, nur einen Teil seines Wesens erfassen kann. Bitte beachten Sie außerdem, dass diese Überprüfung wahrscheinlich meine persönlichen Gedanken und Wahnvorstellungen enthält.

Datensatz

Ich habe hauptsächlich die Such-API von Twitter als Daten verwendet, um zu überprüfen, wann sich diese Gerüchte verbreiten und was die Ursache sein könnte. In Bezug auf diesen Fall wird erwartet, dass sie, selbst wenn die Gerüchte wahr sind (unter der Annahme, dass eine Notfallerklärung abgegeben und die Stadt geschlossen wird [^ 2]), in nahe gelegenen Supermärkten aufgekauft werden, also nur bei Verwandten und Bekannten Es wird erwartet, dass der Wunsch, dieses Gerücht zu vermitteln, funktioniert und dass LINE anstelle von Twitter aktiv genutzt wird. LINE-Informationen sind jedoch nicht verfügbar und werden von den Datensatzkandidaten ausgeschlossen.

In den NHK-Nachrichten am 30. März 2020 um 17:58 Uhr bestritt Außenminister Kan die "Stadtblockade", und in den Nachrichten in derselben Nacht bestritt Premierminister Abe Gerüchte über die "Notfallerklärung". Wir haben Tweets gesammelt, die diese Wörter um den 30. März erwähnen.

Insbesondere für den Zeitraum von 2020/03/27 00:00 bis 2020/03/31 23:59 haben wir eine Anfrage an die Twitter-API mit den Suchbedingungen "Sperrung ODER Stadtblockade ODER Notfallerklärung" und etwa 120 gestellt Ich habe 10.000 Tweets. Das Ergebnis ist unten dargestellt [^ 3]. Die horizontale Achse repräsentiert die Zeit und die vertikale Achse repräsentiert die Anzahl der Tweets. Das Schätzergebnis des lokalen linearen Trendmodells für dieselben Daten und sein 95% -Vorhersage- / Konfidenzintervall werden ebenfalls angezeigt.

See the Pen Über den Übergang der Verbreitung der "Notfallerklärung am 1. April" ~ Übergang der Anzahl der Tweets durch Tajima Junpei ( @ p-baleine ") ) on CodePen.

In der Grafik der Trendkomponente mit der im Schätzergebnis entfernten periodischen Komponente sehen Sie den Aufwärtstrend, der an anderen Tagen ab dem Abend des 28. und 30. März nicht sichtbar ist.

Quelle von Gerüchten

Es wird vermutet, dass der oben erwähnte Aufwärtstrend hauptsächlich durch Kettenhemden verursacht wird, die vom FIJ und verschiedenen Nachrichtenseiten sorgfältig belüftet werden.

[Kettenmails, die "ab dem 1. April gesperrt werden", werden um "LINE" verteilt. Seien Sie vorsichtig, da es sich um einen Scherz handelt (Shuji Shinohara) - Persönlich - Yahoo!

Wie Sie in diesem Artikel sehen können, wird angenommen, dass die Quelle des Kettenhemdes LINE ist. Da Sie nicht auf die LINE-Daten zugreifen können, können Sie den Ursprung des Kettenhemdes nicht überprüfen. Es gibt auch keine Möglichkeit zu überprüfen, ob dieses Kettenhemd wirklich die Ursache für das Phänomen der Verbreitung von Wörtern wie "Notfallerklärung" (auf Twitter) war. Danach gehe ich davon aus, dass Kettenhemd die Ursache für das Ausbreitungsphänomen war.

Diesmal unter der Voraussetzung, dass Kettenhemd die Ursache für das Ausbreitungsphänomen war, bis der Premierminister es am 30. statt am 29. oder 31. absichtlich in den Medien bestritt, die "Notfallerklärung" und " Ich untersuchte, ob das Wort "Lockdown" verbreitet wurde.

Hypothese über die Ursache der Diffusion

Das Kettenhemd, das dieses Mal das Ausbreitungsphänomen verursacht hat, wird als eine Art gefälschte Nachricht angesehen, da es als "Scherz" bezeichnet wird.

"[Ein von Public Data Lab erstellter Leitfaden zu" gefälschten Nachrichten "und anderen Informationen", der bei der Überprüfung gefälschter Nachrichten mithilfe von Daten soziale Probleme löst. Störungen](https://fakenews.publicdatalab.org/) ”[^ 4] wurde als Referenz verwendet. Zusätzlich zu der traditionellen Methode zum Zählen von Likes und Retweets schlägt "A Field Guide to Fake News" eine Methode vor, um sich auf die Situation zu konzentrieren, in der sich die Nachrichten verbreiten und die an der Verbreitung beteiligten Akteure. Dies besteht darin, dass es sich auf den Kontext konzentriert, der hinter der Verbreitung steht, wie "wer" und "wofür" die gefälschten Nachrichten verbreitet wurden, "wer" und "warum" daran beteiligt waren. Es unterscheidet sich von der Methode.

Ich weiß nicht, ob dieses Gerücht, die "Notstandserklärung am 1. April", die Ideologie einer bestimmten Person oder Gruppe oder die sogenannten falschen Nachrichten mit Interessen ist, aber ich konzentriere mich auf den Kontext hinter der Verbreitung. Dies wird voraussichtlich zu vielfältigeren Überlegungen führen. Lassen Sie es uns daher anhand dieser Methode überprüfen.

Im Allgemeinen wird der aktuelle Spread nicht als Ursache für den Spread zu einem späteren Zeitpunkt angesehen. Der Trend in der obigen Abbildung zeigt dies ebenfalls gut. Da es jedoch am 29. und 31. keinen Aufwärtstrend gibt und der Aufwärtstrend bestätigt werden kann, ist der Aufwärtstrend am 30. stärker ausgeprägt als am 28., sodass wir uns die Existenz zusätzlicher Ursachen vorstellen können.

Dieses Mal habe ich als Ursache einen Tweet mit einer großen Anzahl von Retweets angenommen. Es basiert auf der Idee, dass Tweets, die mehr Retweets erhalten, nach ihrer Veröffentlichungszeit einen größeren positiven / negativen Einfluss auf ihre Verbreitung haben. Ich habe diese Annahme gewählt, weil es einfach ist, zuerst Daten abzurufen und dann die Problemeinrichtung zu vereinfachen. Es gibt eine Vielzahl möglicher Ursachen und Kombinationen wie Nachrichtenseiten, Facebook und die Verbreitung von Viren, aber nicht alle können überprüft werden. Im Allgemeinen sollten Sie beim Modellieren das einfachste Element verwenden, das Ihre Hypothese am genauesten ausdrücken kann. Diesmal jedoch, ob Sie das Element (die Daten) überhaupt abrufen können, die Ressourcen meines Computers usw. , Diese Einstellung wird aufgrund von Einschränkungen vorgenommen, die nicht wesentlich sind.

Prüfergebnis

Wir werden untersuchen, ob Tweets mit einer großen Anzahl von Retweets am Abend des 30. März die Verbreitung von Tweets verursacht haben, die Wörter wie "Notfallerklärung" und "Stadtblockade" enthalten.

Dieses Mal habe ich das Modell betrachtet, das als das einfachste angesehen wird. Das heißt, zu dem lokalen linearen Trendmodell, das die Anzahl der oben genannten Tweets als beobachteten Wert als exogene Variable verwendet, wird der Binärwert, ob der Tweet, der zu diesem Zeitpunkt eine bestimmte Anzahl von Retweets erhalten hat, bereits getwittert wurde oder nicht, als Regressionsterm hinzugefügt. Sah. (Dieser Regressionskoeffizient wird anhand der wahrscheinlichsten Schätzung aufgrund der Ressource des Computers geschätzt.) Der Schwellenwert für die Anzahl der Retweets wird heuristisch untersucht und auf 1.000 oder mehr festgelegt. Die Ergebnisse sind unten gezeigt.

See the Pen WNvBVXM by Tajima Junpei (@p-baleine) on CodePen.

Die Kreise in der Grafik stellen jeden Tweet mit 1.000 oder mehr Retweets dar, und die Y-Achse rechts entspricht dem Regressionskoeffizienten des geschätzten Modells. Die Größe des Kreises entspricht der Anzahl der Retweets für jeden Tweet. Darüber hinaus werden die Titel früherer Nachrichtenartikel, die willkürlich aus NHK NEWS WEB ausgewählt wurden, oben in der Grafik angezeigt.

Unten ist der AIC [^ 5] des Modells auf lokaler Ebene, des lokalen linearen Trendmodells mit Periodizität (oben) und des Modells mit Tweets mit 1.000 oder mehr Retweets als exogene Variablen aufgeführt. Unter dem Gesichtspunkt der Modellauswahl war das Modell, das Tweets mit 1.000 oder mehr Retweets als exogene Variablen enthält, das beste Modell.

Modell AIC
Modell auf lokaler Ebene 9334.294
Lokales lineares Trendmodell (Periodizität) 7640.617
Lokales lineares Trendmodell (Periodizität + exogene Variable) 7491.854

Es ist ersichtlich, dass es am 28. und 30. mehr Tweets mit positiven Regressionskoeffizienten gibt, als in normalen Zeiten. Dieses Ergebnis konnte jedoch nicht erklären, warum es am 28. und 30. einen Aufwärtstrend gab und warum er am 30. stärker ausgeprägt war als am 28 .. Vielleicht können Sie einige Hinweise erhalten, indem Sie den Inhalt von Tweets mit positiven Regressionskoeffizienten und Tweets mit negativen Regressionskoeffizienten vergleichen, aber diesmal haben wir eine gründliche Überprüfung durchgeführt. nicht.

Wir glauben auch, dass dieses Modell einfach ist und daher die folgenden Probleme hat:

Obwohl wir diesmal nur Twitter-Daten verwenden, können wir darüber hinaus Modelle in Betracht ziehen, die andere Quellen verwenden (z. B. ein Modell, das jeden Artikel im NHK NEWS WEB als exogene Variable enthält). Ich werde.

abschließend

Am 30. März 2020 suchte ich nach dem Grund, warum sich das Gerücht "Die Regierung wird am 1. April einen Notfall erklären" aus Tweets mit ähnlichen Wörtern verbreitete.

Was ich wirklich tun wollte und was ich sehen möchte, ist, die Auswirkungen dieser Gerüchte und gefälschten Nachrichten über das Internet auf die Psychologie aller auf eine Weise zu erfassen, die mich überzeugt. ist. Aus makroökonomischer Sicht sind "Trends" genau das, aber wie Sie in "Ein Feldleitfaden für" gefälschte Nachrichten "und andere Informationsstörungen" sehen können, die Beziehungen, Interessen und Motive von Personen, die an der Verbreitung gefälschter Nachrichten beteiligt sind. Ich interessiere mich für Visualisierung einschließlich.

Ich glaube nicht, dass es sich um gefälschte Nachrichten handelt, aber natürlich ist niemand mit Informationen zufrieden, die sich nachteilig auf Familie, Freunde oder sich selbst auswirken können. Wenn sich solche gefälschten Nachrichten verbreiten, verlangsamt dies Ihr ruhiges Urteilsvermögen. Ich denke, es wird eine Gelegenheit sein. Es ist nur mein Beobachtungsbereich, aber ich habe auch nach Anfang März kein Phänomen wie das Aufkaufen im Supermarkt in der Nachbarschaft gesehen. Allerdings waren die Regale des täglichen Bedarfs und des Reises nur am Abend dieses Tages (30.03.) Knapp im Vergleich zu gewöhnlich, und ich fühlte mich im Laden ungeduldig, etwas aufzukaufen.

Wenn Sie sich den Text des Kettenhemdes ansehen, das Sie jetzt ruhig sind, können Sie auch sehen, dass es sich um ein lehrbuchartiges Kettenhemd handelt, von dem sich normalerweise niemand täuschen lässt. Am Ende dieser Nachricht befindet sich eine Anweisung, die Nachricht absichtlich an einen Bekannten weiterzuleiten. Dies kann als typisches Beispiel für Kettenhemd angesehen werden ([Wikipedia: Kettenhemd](https: // ja.). wikipedia.org/wiki/%E3%83%81%E3%82%A7%E3%83%BC%E3%83%B3%E3%83%A1%E3%83%BC%E3%83%AB#% E3% 82% A4% E3% 83% B3% E3% 82% BF% E3% 83% BC% E3% 83% 8D% E3% 83% 83% E3% 83% 88% E4% B8% 8A% E3% 81% AE% E9% A1% 9E% E5% 9E% 8B)) [^ 6]. (Wenn Sie diese Nachricht erhalten haben, überprüfen Sie bitte den Text, es gibt noch einige andere mysteriöse Punkte.) Trotzdem, wenn sich Gerüchte im Internet verbreiten und zum Beispiel der Supermarkt in der Nachbarschaft weniger als gewöhnlich ist, können einige Leute getäuscht werden (ich wurde um etwa die Hälfte getäuscht). )

Wenn Sie so weit lesen, bin ich vielleicht sowohl in der Zeitreihenanalyse als auch in gefälschten Nachrichten ein Außenseiter. Wenn etwas nicht stimmt, würde ich mich sehr freuen, wenn Sie darauf hinweisen könnten. Als Amateur interessiert mich jedoch, wie sich Menschen als Gruppe verhalten, wenn Menschen in einer Situation, in der sie sich gefährlich fühlen, indirekt über das Internet verbunden sind. Deshalb habe ich diesmal auch studiert. Ich habe versucht, daran zu arbeiten. Als ich es tatsächlich ausprobierte, konnte ich nur wenige Modelle überprüfen, da sowohl das Sammeln von Informationen als auch das Ableiten mehr Computerressourcen erforderten, als ich erwartet hatte. Ich würde gerne ressourcenintensive Aufgaben wie Inferenz in der Cloud ausführen, da ich keine anderen Arbeiten ausführen kann (z. B. im Internet tauchen, mit Emacs spielen und gelegentlich arbeiten), aber die vorhergehende ist ...: Schweiß:

Wenn es ein Thema gibt, das mich interessiert, würde ich es gerne ausprobieren, wenn ich die Energie und die Ressourcen habe (das mit: Geldsack: weil ich Zeit habe).

Verweise

Bei der Durchführung dieser Überprüfung habe ich Folgendes erwähnt:

[^ 1]: Da die FIJ-Site jedoch auch [beschrieben] hat (https://fij.info/coronavirus-feature), kann nicht garantiert werden, dass diese Artikel 100% korrekt sind, daher in diesem Artikel Es gibt keine Garantie dafür, dass der "Scherz", von dem Sie sprechen, 100% "Scherz" ist. [^ 2]: Abgesehen davon habe ich das Gefühl, dass die in Tokio lebenden Menschen, einschließlich meiner selbst, dazu neigen, gemeinsam an die Erklärung eines Notfalls und die Blockade der Stadt zu denken. [^ 3]: Die Modellschätzung wurde unter statsmodels durchgeführt. Das Diagramm wird mit Observable erstellt und mit CodePen eingebettet. [^ 4]: Das herunterladbare PDF wurde mit Illustrator und InDesign als Ganzes erstellt, sodass ich es nicht kopieren und in meine Umgebung einfügen konnte, sodass es schwierig war, Notizen zu machen. Die Quelle wird auf Github veröffentlicht, daher können Sie diese verwenden, wenn Sie sich Notizen machen https://github.com/PublicDataLab/fake-news-field-guide

Recommended Posts

Überprüfung der Scherzausbreitung der "Notfallerklärung am 1. April"
Unterschied in den Ergebnissen abhängig vom Argument von multiprocess.Process
Hinweis zum Standardverhalten von collate_fn in PyTorch
Umfrage zum Einsatz von maschinellem Lernen in realen Diensten
Zählen Sie die Anzahl der Zeichen im Text in der Zwischenablage auf dem Mac
Finden Sie den Rang der Matrix in der XOR-Welt (Rang der Matrix auf F2)
Holen Sie sich die Anzahl der Leser von Artikeln über Mendeley in Python
Zeichnen Sie die Ausbreitung des neuen Koronavirus
Die Geschichte der Teilnahme an AtCoder
Die Geschichte des "Lochs" in der Akte
Spielen Sie den Kommentar des Nico Nico-Videos auf dem Terminal in Verbindung mit dem Video ab
[Android] Zeigen Sie Bilder im Web im infoWindow von Google Map an