[PYTHON] C'est pourquoi je vais chercher les tweets de l'élection de la Chambre des représentants

Cela fait un an que l'interdiction des élections en ligne a été levée, et chaque fois que les élections sont terminées, c'est un espace de parole qui ne cesse de réduire les machines restantes des démocrates et du Japon comme un sperunker. Comment allez-vous tous aujourd'hui?

D'ailleurs, cette fois, j'examinerai le contenu des tweets avant et après l'ouverture du vote.

Contenu de la collection

2014/12/14 De 18:00 à 07:00 Recueillir des tweets contenant les informations suivantes

#élection,#Élection à la Chambre des représentants,élection

** Continuez à recevoir des tweets contenant des mots-clés spécifiques à l'aide de l'API Streaming en Python ** http://qiita.com/mima_ita/items/ecdf7de2fe619378beee

Code utilisé pour la collecte et l'analyse

https://github.com/mima3/stream_twitter

Confirmé pour fonctionner avec Windows7 Python 2.7

Analyse des résultats de collecte

Les données collectées peuvent être téléchargées à partir de ce qui suit. http://needtec.sakura.ne.jp/doc/shuin47twitter.zip

Histogramme horaire

Tout d'abord, regardons le nombre de tweets par temps. Regardons les données horaires de 18h00 à 07h00 le 2014/12/14 en utilisant le code ci-dessus.

python twitter_db_hist.py "2014/12/14 9:00" "2014/12/14 22:00" 3600

Le résultat est le suivant:

figure_1.png

Heure (UTC) Heure du Japon nombre
12/14 09:00 12/14 18:00 3149
12/14 10:00 12/14 19:00 4047
12/14 11:00 12/14 20:00 11280
12/14 12:00 12/14 21:00 9755
12/14 13:00 12/14 22:00 7199
12/14 14:00 12/14 23:00 5207
12/14 15:00 12/14 00:00 3472
12/14 16:00 12/14 01:00 3801
12/14 17:00 12/14 02:00 1545
12/14 18:00 12/14 03:00 529
12/14 19:00 12/14 04:00 292
12/14 20:00 12/14 05:00 300
12/14 21:00 12/14 06:00 477

Le moment de l'ouverture du vote à 20h00 sera le plus élevé. Et le nombre de tweets diminuera avec le temps. Cependant, il a repris dans les 1: 00, et après cela, le nombre de tweets a diminué, et il s'est un peu rétabli d'environ 5h00 lorsque je me suis réveillé.

Il est compréhensible que le nombre de tweets diminue au milieu de la nuit et augmente le matin. Mais quelle est la raison de l'augmentation du nombre de tweets dans les 1h00 de minuit?

Pour cette raison, regardons les 1: 00 par unités de 1 minute.

python twitter_db_hist.py "2014/12/14 16:00" "2014/12/14 17:00" 60

figure_2.png

En regardant ce résultat, il montre une excitation rapide autour de 1:27 minutes.

Que s'est-il passé à ce moment? Ici, vérifions les fils des gens de l'Institut Kaieda qui aiment le Parti démocrate.

** [Fukatsu no Jumon est différent] Kaieda Democratic Party Research 802e [Tosen no Sho a été décidé] ** http://anago.2ch.net/test/read.cgi/asia/1418565521/

811: Pas de nom du lieu où le soleil se lève: 2014/12/15(Mois) 01:26:44.86 ID:tG+ZZ8gB
[Dernières nouvelles] La représentante du Parti démocrate, Mari Kaieda, ne s'est pas relancée dans le bloc proportionnel de Tokyo et l'élection a été confirmée (01).:19)(c)2ch.net
    http://daily.2ch.net/test/read.cgi/newsplus/1418574054/

812: Pas de nom du lieu où le soleil se lève: 2014/12/15(Mois) 01:26:49.76 ID:4Us97nfn
Décision perdue w

813: Pas de nom du lieu où le soleil se lève: 2014/12/15(Mois) 01:26:51.11 ID:pW7uplw3
Au revoir, Mari

814: Pas de nom du lieu où le soleil se lève: 2014/12/15(Mois) 01:27:01.20 ID:yIjazH47
Wow ah ah NHK a également perdu w

815: Pas de nom du lieu où le soleil se lève: 2014/12/15(Mois) 01:27:02.02 ID:NOhUWn58
Le Mali complètement vaincu à la NHK

Non, je vais à Phoenix d'ici! C'est définitivement Fenix, donc _____

816: Pas de nom du lieu où le soleil se lève: 2014/12/15(Mois) 01:27:08.70 ID:4zmUGrZE
    >>802
㌧. Je n'ai pas acheté de cornichons pour pouvoir ouvrir la boîte de maquereau

En regardant la situation à ce moment-là, il semble qu'Asahi ait rapporté la défaite proportionnelle de Kaieda comme un extra à 1:19, et NHK a également rapporté la nouvelle à 1:27.

Comme prévu, on peut dire que l'avancement et la retraite du chef du premier parti d'opposition ont eu pour effet d'effacer les yeux somnolents du Twitterer à minuit. De plus, à partir de ce résultat, on peut voir que le téléviseur a un pouvoir de diffusion plus fort que le journal supplémentaire.

Extraction de mots fréquents

Ensuite, regardons les mots fréquents. En utilisant Mecab, nous avons effectué une analyse morphologique et agrégé les mots.

Cela peut être fait avec le script suivant.

python twitter_db_mecab.py "2014/12/14 9:00" "2014/12/14 22:00" > mecab.txt

Les 100 meilleurs sont affichés ci-dessous.

mot Nombre d'apparitions
élection 70626
quartier 33315
Sélection 27196
Chambre des députés 27152
Vote 13740
11698
Probablement 8386
LDP 7403
Dernières nouvelles 7120
m 7074
Tokyo 6864
Vote 6484
Gagnant 6456
Brut 6443
NHK 6222
5866
# 5519
Perdu 5504
official 5488
kyodo 5487
Sûr 5384
5352
fête 5236
Supplémentaire 5229
Siège 5025
aller 4811
Homme 4796
BqAAr 4633
vlhS 4606
taux 4460
Proportionnel 4419
LDP 4302
bloquer 4208
4196
Teru 4035
journée 3912
Candidat 3811
Chambre des députés 3782
seiji 3773
3745
Pendant ~ 3726
Japon 3611
jimin 3607
koho 3603
représentant 3599
La démocratie 3592
3589
La personne 3548
nicohou 3490
JNSC 3203
blogos 3170
ld 3125
Nom 3098
Abe 3068
Parti démocratique 3039
Dire 3011
Numéro spécial 2959
La prochaine génération 2889
2881
Temps 2844
Nico 2817
Être 2750
Apparence 2727
Battre Takeshi 2723
Être 2721
Kanagawa 2690
Politique 2532
2511
Kaieda 2504
ça peut 2488
Minutes 2424
Longue 2371
Année 2315
Visualisation 2315
Okinawa 2231
Résurrection 2176
Vers le haut 2092
U 1997
Acquis 1977
Voter 1954
Absent 1953
Courant 1926
Restauration 1905
premier ministre 1898
presse 1888
rapport 1882
étang 1831
prendre 1775
parti communiste 1773
Remplacer 1769
nécessaire 1766
nMDR 1761
YidT 1761
Jeunesse 1750
Cible 1727
Papier 1712
Mari 1666
senkyost 1645
information 1628
J'adorerais 1618

Après tout, le nom de parti le plus extrait était "LDP", qui a pris la majorité. Viennent ensuite le «Parti démocrate», suivi de la «prochaine génération», puis du «Renouveau» et du «Parti communiste». Le parti de la prochaine génération semble avoir un écart considérable entre le nombre réel de sièges et le degré d'attention sur le net.

"Tokyo" et "Okinawa" ont été extraits par nom de lieu. Quant à Tokyo, il y a eu un retweet de l'article de "Tokyo Shimbun", donc il a été beaucoup extrait, et pour Okinawa, le PLD était sous la forme d'anéantissement des petites circonscriptions, donc on pense qu'il a attiré plus d'attention que d'autres domaines.

Les noms des personnes qui ont attiré l'attention étaient «Abe», «Beat Takeshi» et «Kaieda». Sans parler du Premier ministre et du chef du premier parti d'opposition, il était surprenant que "Beat Takeshi" soit remarqué. Apparemment, c'est parce que "Beat Takeshi" apparaissait dans Nico Nama.

Explorer la relation entre les clauses

Enfin, utilisons Cabocha pour tabuler la relation entre les clauses. Voir ci-dessous pour savoir comment installer Cabocha sous Windows.

** Mettez Cabocha dans Windows et analysez la dépendance avec Python ** http://qiita.com/mima_ita/items/161cd869648edb30627b

Cette fois, j'ai analysé avec 0,66. Je pense que les derniers résultats seront similaires.

Cela peut être fait avec le script suivant.

python twitter_db_cabocha.py "2014/12/14 9:00" "2014/12/14 22:00"  > cabocha.txt

Les 100 meilleurs sont affichés ci-dessous.

Clause 1 Clause 2 Nombre d'apparitions
Perdu Sûr 1762
co/ 4nMDR4YidT#Élections générales http://t 1557
Taux de vote 0% 1538
[Élection] Élection à la Chambre des représentants, Adolescent 1534
Adolescent Taux de vote 1534
Jeunesse aller 1504
Nom écrire 1504
RT@whsaito:Papier de vote Remplir 1502
Nom Remplir 1502
Par tous les moyens candidat Nom 1502
méthode prendre 1502
haute Japon 1502
écrire aller 1502
prendre Japon 1502
Remplir méthode 1502
14e aller 1502
Niveau d'éducation haute 1502
RT@kyoho_times: Adolescent 1460
Résurrection Sûr 1288
gars Gagner 1208
Tel gars 1208
aller-le déni Gagner 1186
Probablement rapport 1172
3700kei:#Élection générale aller-le déni 1141
RT@keisei 3700kei:#Élection générale 1107
Bloc proportionnel de Tokyo Résurrection 1075
RT@kyodo_official:Parti démocratique Représentant de Mari Kaieda 964
Président Satoshi Katayama Perdre 928
Perdre Perdre 928
Représentant de Mari Kaieda Résurrection 928
Opposition Perdre 928
parti socialiste Président Satoshi Katayama 928
Élection à la Chambre des représentants de 1949 Perdre 928
défaite Sûr 914
Toutes les personnes Politique http://t 885
Gagnant Sûr 815
Page spéciale sur les élections à la Chambre des représentants →http://t 761
ressentir #élection 755
Lieu de vote Ecoutez 755
1 vote Écart 755
Écart ressentir 754
Ecoutez ressentir 754
Lycée pour filles Ecoutez 754
RT@kurosia:connaissance Lieu de vote 752
Le plus bas après la guerre Dernière fois 742
RT@ld_blogos: [Dernières nouvelles] 663
La prochaine génération fête 633
[Dernières nouvelles] Probablement 561
Au dessous de http://t 551
RT@kyodo_official:La prochaine génération fête 546
Élection à la Chambre des représentants Taux de vote 535
Quand Etat 514
M. Kiyomi Tsujimoto, 10e arrondissement démocratique d'Osaka Probablement 475
Informations sur le candidat Élection à la Chambre des représentants 2014-Yahoo
après midi À partir de 6 heures 424
Taux de vote 34 424
79 points Au dessous de 420
moyenne nationale 34 420
À partir de 6 heures 34 420
98% Dernière fois 420
Par 34 420
RT@senkyost: [Sièges acquis___ 386
Vote aller 379
Droit de légitime défense collective Accepter l'exercice 377
défaite rapport 370
Probablement Pause 367
chose connaître 363
Japon connaître 360
Retour à J League connaître 359
Si ça arrive Courir 359
progressivement Retour à J League 359
je Courir 359
nécessaire Dire 357
Gagnant#J'espère se répandre___#RT Suivez tout le monde 356
[Triste nouvelle] Pour l'animation nécessaire 356
Régulation nécessaire 356
Gagnant nécessaire 356
Dire #Élection http://t 355
Suivez tout le monde #Élection http://t 355
8bu_: nécessaire 352
RT@K 8bu_: 352
#élection#NHK#衆議院élection#Ikegami élection#Vote 344
M. Ishihara Faire une déclaration 341
fête Conseiller en chef Shintaro Ishihara 341
Élection à la Chambre des représentants cette fois Retiré du monde politique 341
Conseiller en chef Shintaro Ishihara Perdu 341
Retiré du monde politique Faire une déclaration 341
co/ 7LGbX1z 322
RT@mainichijpedit:Ministère des affaires intérieures et des communications Par 309
Compréhension obtenir 304
___http ://t 303
Gens Compréhension 303
RT@jimin_koho: /Faire 301
chose Sûr 278
RT@jimin_koho: / 270
Accepter l'exercice Exprimer 268
LDP Exprimer 268
Exprimer Seiichiro Murakami 268
Opposition Exprimer 268
2e salle Exprimer 268

Perdu → La certitude étant classée en premier, il semble que l'intérêt de Twitter porte davantage sur qui sera abandonné que sur celui qui sera accepté.

De plus, il semble qu'il y ait de nombreuses références au taux de vote des jeunes. Cependant, il est également vrai qu'il existe de nombreux reportages selon lesquels "le taux de vote des adolescents est de 0%".

"Haut" -> "Japon" semble être le résultat d'un grand nombre de retweets de tweets disant "Seul le Japon avec un niveau d'éducation élevé utilise la méthode d'écriture d'un nom sur un formulaire de vote."

De plus, comme je l'ai mentionné au début, j'ai enquêté sur la démocratie et le Japon, où les opportunités restantes sont réduites à chaque élection. Sur les deux tweets disant que la démocratie mourra, il y a 11 tweets disant que la démocratie ne mourra pas, il semble donc que l'opportunité restante de la démocratie n'est probablement pas moins que prévue.

Cependant, les mots suivants pour réduire la machine restante ont été extraits.

Clause 1 Clause 2 Nombre d'apparitions
La démocratie mourir 2
La démocratie Fin 2
La démocratie Fin 2
La démocratie Effondrer 2
···La démocratie Effondrer 1

Comment la réduction des avions restants de Nihon-chan est la suivante.

Clause 1 Clause 2 Nombre d'apparitions
RT@inosan08260:Fin du Japon confirmée 178kakapo:Japon 7
LDP Effondrement du Japon 4
Déjà Effondrement du Japon 4
Ridicule Effondrement du Japon 4
Japon Écraser 2
Japon Fin 2

De ce résultat, il semble que le nombre d'avions démocratiques restants a diminué à 9 lors de cette élection, et le nombre d'avions restants du Japon a diminué d'environ 23.

Résumé de ce qui peut être lu à partir des données

・ Lorsque M. Kaieda se retrouve au chômage, il s'excite même si c'est au milieu de la nuit, et quand il voit que la phrase de défaite → certitude apparaît fréquemment, on voit plus qui tombera que qui l'acceptera.

・ En regardant le nombre d'apparitions du mot «prochaine génération» et les résultats réels, on peut dire que les sièges ne peuvent pas être pris en raison de l'attention sur le net.

・ La démocratie et le Japon avaient l'image que les machines restantes diminuent à chaque élection, mais cette fois, il semble que ce ne soit pas le cas.

Vrai résumé

Vous pouvez faire une analyse bidon comme ça. Pour les tweets horaires, comme dans cet exemple, je pense que vous devriez regarder l'augmentation et la diminution des données et enquêter en détail là où il y a eu un changement.

Il est facile de voir que la fréquence des mots retient certainement beaucoup l'attention. Cependant, il est à noter qu'un grand nombre d'extraits pour cet exemple n'est pas toujours une réaction positive.

Pour l'analyse des dépendances, il peut être possible de surmonter la faiblesse de l'examen des occurrences fréquentes de mots uniquement. Mais honnêtement, je n'aurais pas pleinement réalisé cette possibilité cette fois-ci. Ce sera un problème pour le futur.

Au fait, je ne pouvais pas obtenir le tweet de la clé de voûte avec le filtre de l'API Streaming.

Recommended Posts

C'est pourquoi je vais chercher les tweets de l'élection de la Chambre des représentants
C'est pourquoi j'analyserai les commentaires du débat du chef de parti de Nico Nama à la Chambre des représentants.
C'est pourquoi je calcule le nombre de sièges pour le représentant proportionnel à l'élection de la Chambre des représentants
C'est pourquoi j'analyserai la page d'accueil de chaque partie
Je vais me débarrasser de toutes les méthodes de livre de mètre de ce monde!