[PYTHON] Vérification de la propagation du canular de "Déclaration d'urgence le 1er avril"

introduction

Dans la soirée du 30 mars 2020, des rumeurs se sont répandues sur Internet selon lesquelles "le gouvernement déclarera une urgence le 1er avril" et "lockdown = blocus de la ville le 2 suivant".

La FIJ (Fact Check Initiative), qui promeut les activités de diffusion de fact check au Japon, considère cette question comme l'une des informations peu fiables.

Le gouvernement déclare une urgence le 1er avril et verrouille la 2e diffusion sur LINE, etc.

Lors d'une conférence de presse ce soir, le secrétaire d'État Kan a clairement démenti la rumeur [^ 1].

30 mars, 17 h 58: [Information en ligne du Secrétaire général sur le "blocus de la ville" "No such fact" | NHK News](https://www3.nhk.or.jp/news/html/20200330/k10012357971000. html)

En outre, il a été rapporté que le Premier ministre Abe a également nié cette rumeur cette nuit-là.

30 mars, 20h11: Déclaration d'urgence "La déclaration d'Asatte est un canular" Premier ministre Abe | NHK News

J'étais curieux de savoir quand cette rumeur s'est tellement répandue que le premier ministre et le secrétaire d'État ne pouvaient pas l'ignorer, alors j'ai enquêté. En tant que données, il est facile de vérifier le site d'actualités et le phénomène de diffusion, et il est facile pour les particuliers d'obtenir [API de recherche Twitter](https://developer.twitter.com/en/docs/tweets/search/ api-reference / get-search-tweets) est utilisé.

Comme nous le verrons plus tard, la source de cette rumeur est présumée être LINE, donc cette vérification utilisant uniquement Twiitter et d'autres données accessibles au public ne peut capturer qu'une partie de son essence. De plus, veuillez noter que cette vérification inclut probablement mes pensées et mes délires personnels.

base de données

J'ai principalement utilisé l'API de recherche de Twitter comme données pour vérifier quand ces rumeurs se propagent et quelle pourrait en être la cause. Concernant ce cas, même si les rumeurs sont vraies (en supposant qu'une déclaration d'urgence sera émise et que la ville sera fermée [^ 2]), on s'attend à ce qu'elles soient rachetées dans les supermarchés à proximité, donc seuls parents et connaissances Il est prévu que le désir de transmettre cette rumeur fonctionnera et que LINE sera activement utilisé à la place de Twitter, mais les informations LINE ne sont pas disponibles et sont exclues de l'ensemble de données candidats.

Dans les nouvelles de la NHK à 17h58 le 30 mars 2020, le secrétaire d'État Kan a nié le "blocage de la ville", et dans les nouvelles de la même nuit, le Premier ministre Abe a démenti les rumeurs sur la "déclaration d'urgence". Nous avons rassemblé des tweets mentionnant ces mots vers le 30 mars.

Plus précisément, pour la période du 27/03/2020 00h00 au 31/03/2020 23h59, nous avons fait une demande à l'API Twitter avec les conditions de recherche "Verrouillage OU Blocage de la ville OU Déclaration d'urgence", et environ 120 J'ai 10 000 tweets. Le résultat est affiché ci-dessous [^ 3]. L'axe horizontal représente le temps et l'axe vertical représente le nombre de tweets. Le résultat de l'estimation du modèle de tendance linéaire local pour les mêmes données et son intervalle de prédiction / confiance à 95% sont également présentés.

See the Pen A propos de la transition de la diffusion de la "Déclaration d'urgence le 1er avril" ~ Transition du nombre de tweets par Tajima Junpei ( @ p-baleine " ) on CodePen.

Dans le graphique de la composante de tendance avec la composante périodique supprimée dans le résultat de l'estimation, vous pouvez voir la tendance haussière qui ne peut pas être observée les autres jours à partir de la soirée des 28 et 30 mars.

Source de rumeurs

Il est présumé que la tendance à la hausse mentionnée ci-dessus est principalement causée par le courrier en chaîne qui est soigneusement ventilé par FIJ et divers sites d'information.

[Des courriers en chaîne qui "entreront en lock-out à partir du 1er avril" seront distribués autour de "LINE". Soyez prudent car il s'agit d'un canular (Shuji Shinohara) --Individuel --Yahoo! News](https://news.yahoo.co.jp/byline/shinoharashuji/20200330-00170566/?fbclid=IwAR2cnS6qOVv7UFc3x4TcUHVFiFiF_DTTU7UFc3x4TcUHVKF_dTTu7

Comme vous pouvez le voir dans cet article, la source de la cotte de mailles est présumée être LINE. Comme vous ne pouvez pas accéder aux données LINE, vous ne pouvez pas vérifier l'origine de la chaîne de courrier. Il n'y a également aucun moyen de vérifier que cette cotte de mailles était vraiment la cause du phénomène de propagation du mot comme "déclaration d'urgence" (sur Twitter). Après cela, je partirai de l'hypothèse que la cotte de mailles était la cause du phénomène de propagation.

Cette fois, en partant du principe que la cotte de mailles était à l'origine du phénomène de propagation, jusqu'à ce que le Premier ministre le démentit délibérément dans les médias le 30 au lieu du 29 ou 31, "déclaration d'urgence" et "déclaration d'urgence" et " J'ai cherché à savoir si le mot «verrouillage» était répandu.

Hypothèse sur la cause de la diffusion

La cotte de mailles qui a provoqué le phénomène de diffusion cette fois-ci est considérée comme une sorte de fake news, car on dit qu'elle est un "canular".

"[A Field Guide to" Fake News "and Other Information" créé par Public Data Lab, qui travaille à résoudre les problèmes sociaux en utilisant les données lors de la vérification des fausses nouvelles. Disorders](https://fakenews.publicdatalab.org/) »[^ 4] a été utilisé comme référence. Dans "A Field Guide to Fake News", outre la méthode traditionnelle de comptage des likes et des retweets, une méthode de focalisation sur la situation où la nouvelle se répand et les acteurs impliqués dans la diffusion est proposée. Cela existe en ce sens qu'il se concentre sur le contexte derrière la diffusion, comme «qui» et «pourquoi» les fausses nouvelles ont été diffusées, «qui» et «pourquoi» y étaient impliquées. C'est différent de la méthode.

Je ne sais pas si cette rumeur, la "Déclaration d'urgence du 1er avril", est l'idéologie d'un individu ou d'un groupe en particulier, ou la soi-disant fake news avec des intérêts, mais concentrez-vous sur le contexte derrière la diffusion. On s'attend à ce que cela entraîne des considérations plus diverses, vérifions donc cela selon cette méthode.

En général, non seulement cette fois, la propagation actuelle est considérée comme la cause de la propagation à des moments ultérieurs. La tendance de la figure ci-dessus illustre bien cela également. Cependant, comme il n'y a pas de tendance haussière les 29 et 31, et si la tendance haussière peut être confirmée, la tendance haussière est plus prononcée le 30 que le 28, on peut donc imaginer l'existence de causes supplémentaires.

Cette fois, comme cause, j'ai supposé un tweet avec un grand nombre de retweets à cette époque. Il est basé sur l'idée que les tweets qui reçoivent plus de retweets auront un impact positif / négatif plus important sur leur propagation après leur publication. J'ai choisi cette hypothèse car il est facile d'obtenir d'abord les données, puis cela simplifie la configuration du problème. Il existe une myriade de causes et de combinaisons possibles, telles que les sites d'actualités, Facebook et la propagation de virus, mais toutes ne peuvent pas être vérifiées. De manière générale, en matière de modélisation, vous devez utiliser l'élément le plus simple qui peut exprimer le plus précisément votre hypothèse, mais cette fois, si vous pouvez obtenir l'élément (les données) en premier lieu, les ressources de mon ordinateur, etc. , Ce paramètre est effectué en raison de restrictions qui ne sont pas nécessaires.

résultat de l'inspection

Nous examinerons si les tweets les plus retweets autour de la soirée du 30 mars ont provoqué la diffusion de tweets contenant des mots tels que «déclaration d'urgence» et «blocus de la ville».

Cette fois, j'ai considéré le modèle considéré comme le plus simple. Autrement dit, au modèle de tendance linéaire local utilisant le nombre de tweets mentionné ci-dessus comme valeur observée, en tant que variable exogène, la valeur binaire de savoir si le tweet qui a acquis un certain nombre de retweets a déjà été tweeté à ce moment-là est ajoutée comme terme de régression. Vu. (Ce coefficient de régression est estimé par l'estimation la plus probable en raison de la ressource de l'ordinateur.) Le seuil du nombre de retweets est considéré de manière heuristique et est fixé à 1 000 ou plus. Les résultats sont montrés plus bas.

See the Pen WNvBVXM by Tajima Junpei (@p-baleine) on CodePen.

Les cercles sur le graphique représentent chaque tweet avec 1 000 retweets ou plus, et l'axe Y sur la droite correspond au coefficient de régression du modèle estimé. La taille du cercle correspond au nombre de retweets pour chaque tweet. De plus, les titres des articles de presse précédents sélectionnés arbitrairement à partir de NHK NEWS WEB sont également affichés en haut du graphique.

Vous trouverez ci-dessous l'AIC [^ 5] du modèle de niveau local, le modèle de tendance linéaire local qui incorpore la périodicité (ci-dessus) et le modèle qui incorpore des tweets avec 1 000 retweets ou plus comme variables exogènes. Du point de vue de la sélection du modèle, le modèle qui incorpore des tweets avec 1 000 retweets ou plus en tant que variables exogènes était le meilleur modèle.

modèle AIC
Modèle au niveau local 9334.294
Modèle de tendance linéaire local (périodicité) 7640.617
Modèle de tendance linéaire local (périodicité + variable exogène) 7491.854

Vous pouvez voir qu'il y a plus de tweets avec des coefficients de régression positifs qu'en temps normal les 28 et 30 lorsque la tendance à la hausse a été observée. Cependant, ce résultat ne pouvait pas expliquer pourquoi il y avait une tendance haussière les 28 et 30, et pourquoi elle était plus prononcée le 30 que le 28. Vous pouvez peut-être obtenir des indices en comparant le contenu des tweets avec un coefficient de régression positif et des tweets avec une valeur négative, mais cette fois, nous avons effectué une vérification approfondie. ne pas.

Nous pensons également que ce modèle est simple et présente donc les problèmes suivants:

--Le coefficient de régression de la variable exogène est calculé par l'estimation la plus probable. Il est peu probable que le même effet soit exercé après la publication du tweet contenant 1000 retweets ou plus, il est donc plus naturel de le traiter comme une variable variable dans le temps qui change avec le temps.

De plus, bien que nous n'utilisions cette fois que des données Twitter, je pense que nous pouvons envisager des modèles qui utilisent d'autres sources (par exemple, un modèle qui intègre chaque article sur NHK NEWS WEB comme une variable exogène). Je vais.

en conclusion

Le 30 mars 2020, j'ai cherché la raison pour laquelle la rumeur selon laquelle "le gouvernement déclarera une urgence le 1er avril" s'est répandue à partir de tweets contenant des mots similaires.

Ce que je voulais vraiment faire et ce que j'aimerais voir, c'est être capable de saisir les effets de ces rumeurs et fausses nouvelles via Internet sur la psychologie de chacun d'une manière qui me convainc. est. D'un point de vue macro, les «tendances» sont exactement cela, mais comme vous pouvez le voir dans «Guide pratique des« fausses nouvelles »et autres troubles de l'information», les relations, les intérêts et les motivations des personnes impliquées dans la diffusion de fausses nouvelles. Je suis intéressé par la visualisation y compris.

Je ne pense pas que cela se limite aux fausses nouvelles, mais bien sûr, personne n'est content des informations qui pourraient nuire à la famille, aux amis ou à vous-même, et c'est pourquoi lorsque de telles fausses nouvelles se propagent, cela ralentit votre jugement calme. Je pense que ce sera une opportunité. C'est juste ma plage d'observation, mais je n'ai vu aucun phénomène comme l'achat au supermarché du quartier même après début mars. Cependant, seulement le soir de ce jour (3/30), les étagères de produits de première nécessité et de riz étaient rares par rapport à l'habitude, et j'ai ressenti une impression d'impatience dans le magasin pour acheter.

De plus, si vous regardez le texte de la cotte de mailles que vous êtes maintenant calme, vous pouvez voir qu'il s'agit d'une cotte de mailles de type manuel dont personne ne serait normalement dupe. À la fin de ce message, il y a une instruction pour transmettre le message à une connaissance exprès, ce qui peut être considéré comme un exemple typique de chaîne de messagerie ([Wikipedia: Chain mail](https: // ja.). wikipedia.org/wiki/%E3%83%81%E3%82%A7%E3%83%BC%E3%83%B3%E3%83%A1%E3%83%BC%E3%83%AB#% E3% 82% A4% E3% 83% B3% E3% 82% BF% E3% 83% BC% E3% 83% 8D% E3% 83% 83% E3% 83% 88% E4% B8% 8A% E3% 81% AE% E9% A1% 9E% E5% 9E% 8B)) [^ 6]. (Si vous avez reçu ce message, veuillez vérifier le texte, il y a pas mal d'autres points mystérieux.) Néanmoins, si des rumeurs se répandent sur le net et, par exemple, le supermarché du quartier est moins que d'habitude, certaines personnes peuvent être trompées (j'ai été trompé par environ la moitié). )

Peut-être que si vous lisez jusqu'ici, je suis un outsider complet à la fois dans l'analyse des séries chronologiques et les fausses nouvelles. S'il y a quelque chose qui ne va pas, je serais très heureux si vous pouviez le signaler. Cependant, en tant qu'amateur, je m'intéresse au type de comportement que les gens en tant que groupe adopteront lorsque les gens sont indirectement connectés via Internet dans une situation où ils se sentent dangereux, j'ai donc aussi étudié cette fois. J'ai essayé de travailler sur la question. Lorsque je l'ai essayé, je n'ai pu vérifier que quelques modèles car la collecte d'informations et l'inférence nécessitaient plus de ressources informatiques que prévu. J'aimerais faire des tâches gourmandes en ressources telles que l'inférence dans le cloud car je ne pourrai pas faire d'autre travail (comme plonger dans le filet, jouer avec Emacs et travailler occasionnellement), mais le précédent est ...: transpirer:

Aussi, s'il y a un thème qui m'intéresse, alors j'aimerais l'essayer si j'ai l'énergie et les ressources (celui avec: moneybag: parce que j'ai le temps).

Les références

Lors de cette vérification, j'ai fait référence à ce qui suit:

[^ 1]: Cependant, comme le site FIJ a également décrit, ces articles ne sont pas garantis d'être corrects à 100%, donc dans cet article Il n'y a aucune garantie que le «canular» dont vous parlez soit à 100% un «canular». [^ 2]: En passant, je pense que les gens qui vivent à Tokyo, moi y compris, ont tendance à penser ensemble à la déclaration d'urgence et au blocus de la ville. [^ 3]: L'estimation du modèle a été effectuée sur statsmodels. Le graphique est créé avec Observable et intégré à l'aide de CodePen. [^ 4]: Le PDF téléchargeable a été créé à l'aide d'Illustrator et d'InDesign dans son ensemble, je ne pouvais donc pas copier et coller dans mon environnement, il était donc difficile de prendre des notes. La source est publiée sur Github, vous pouvez donc l'utiliser lorsque vous prenez des notes https://github.com/PublicDataLab/fake-news-field-guide

Recommended Posts

Vérification de la propagation du canular de "Déclaration d'urgence le 1er avril"
Différence de résultats en fonction de l'argument du multiprocessus.
Remarque sur le comportement par défaut de collate_fn dans PyTorch
Enquête sur l'utilisation du machine learning dans les services réels
Comptez le nombre de caractères dans le texte dans le presse-papiers sur Mac
Trouvez le rang de la matrice dans le monde XOR (rang de la matrice sur F2)
Obtenez le nombre de lecteurs d'articles sur Mendeley en Python
Tracez la propagation du nouveau virus corona
L'histoire de la participation à AtCoder
L'histoire du "trou" dans le fichier
Lire le commentaire de la vidéo de Nico Nico sur le terminal en conjonction avec la vidéo
[Android] Afficher des images sur le Web dans la fenêtre info de Google Map