[PYTHON] J'ai vérifié l'image de l'Université des sciences sur Twitter avec Word2Vec.

Faire

--Obtenir des Tweets avec l'API Twitter

Obtenez des tweets avec l'API Twitter

J'ai utilisé le script ruby original.

# gem install twitter
require "twitter"

client = Twitter::REST::Client.new do |config|
  config.consumer_key        = ""
  config.consumer_secret     = ""
  config.access_token        = ""
  config.access_token_secret = ""
end

@result = client.search("Université des sciences").take(10000)

File.open("tus.csv", 'w') do |file|
  @result.each do |tweet|
    file.write(tweet.text.gsub(/(\s)/,""))
    file.write("\n")
  end
end

Vous aurez un fichier csv. Il existe de nombreux articles sur l'obtention de jetons, je vais donc l'omettre.

Ajouter un mot à Mecab


cd /usr/local/lib/mecab/dic
mkdir userdic
cd userdic
touch tus.csv
echo 'Université des sciences,,,1,nom,Général,*,*,*,*,Rikadai,Rikadai,Rikadai' >> tus.csv

#compiler
/usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u tus.dic \
-f utf-8 \
-t utf-8 tus.csv

#Appuyez sur Entrée pour compiler

reading tus.csv ... 1
emitting double-array: 100% |###########################################| 

done!

#traverser le chemin

vi /usr/local/etc/mecabrc
#Spécifiez où se trouve le dic généré
userdic = /usr/local/lib/mecab/dic/userdic/tus.dic

word2vec

# coding: UTF-8
import pandas as pd
import numpy as np
import MeCab

tweets = pd.read_csv('/Users/Hiroto/git/scripts/tus.csv').tweet

#Créer un fichier séparé
wakati = ""
for tweet in tweets:
    mt = MeCab.Tagger("-Owakati")
    wakati = wakati + mt.parse(tweet)

f = open('tus_wakati.txt', 'w')
f.write(wakati)
f.close()

# word2vec
from gensim.models import word2vec
data = word2vec.Text8Corpus('tus_wakati.txt')
model = word2vec.Word2Vec(data, size=100)

Similitude du sujet

out=model.most_similar(positive=[u'Université des sciences'],topn= 100)
for x in out:
    print(x[0],x[1])
mot Degré de similitude
Hey 0.9801737666130066
U 0.9679325222969055
monde 0.9637500643730164
inégalité 0.9604602456092834
Ouais 0.9603763818740845
Alors 0.9602923393249512
est 0.9574853181838989
Ce genre de 0.9568058252334595
Lol 0.9534944295883179
ténèbres 0.9462004899978638
0.9435620307922363
0.9433774948120117
Brut 0.942541241645813
De 0.9420970678329468
Bien 0.9348764419555664
Yo 0.9348678588867188
0.9291704893112183
Sentiment 0.929074764251709
Moi 0.9288586378097534
ensemble 0.9273968935012817
Twitter 0.9265207052230835
Est 0.9249017238616943
Rencontre secrète 0.9227114915847778
Teru 0.9216452836990356
Aller 0.9207674264907837
Dieu 0.9192628264427185
Bonne chance 0.918117880821228
Ah ~ 0.9180813431739807
Désagréable 0.9164369106292725
raison 0.9164099097251892
Waka 0.9158462882041931
Compris 0.915264368057251
) 0.913904070854187
Est 0.9111155867576599
Délicieux 0.9105844497680664
Nana 0.9098367691040039
Homme 0.909660816192627
Merde 0.9095121622085571
alors 0.907973051071167
Si 0.906628429889679
sens 0.9065468311309814
Sophia 0.905195415019989
Ou 0.9034873247146606
Gars 0.9014643430709839
Aller 0.8999437689781189
Quoi 0.8993074893951416
Boisson 0.8984052538871765
march 0.8983776569366455
Dire 0.8976813554763794
Ta 0.8964160680770874
Souvent 0.896243691444397
manger 0.8960259556770325
vouloir voir 0.8957585096359253
Enfant 0.8946411609649658
Ravi de vous rencontrer 0.8943185806274414
Vouloir 0.8941484689712524
Étourdissant 0.893967866897583
zèbre 0.8935203552246094
Aussi 0.8934850692749023
tu 0.8934849500656128
éclairage 0.8927890062332153
aller 0.8927274942398071
Ichi 0.8926646709442139
Est 0.8919773697853088
arithmétique 0.8915943503379822
( 0.8915064930915833
Pourquoi 0.8907312154769897
Système littéraire 0.8906354904174805
Hmm 0.8897289037704468
- 0.8896894454956055
Ouais 0.8896220922470093
département 0.8895649313926697
K 0.8881763219833374
Pensées 0.8881138563156128
Je ne sais pas 0.8880779147148132
école 0.8879990577697754
Mais 0.8878818154335022
Incident 0.8878498077392578
S'il vous plaît 0.8875197172164917
Connaître 0.8871732354164124
Iwa 0.8870071172714233
Personnalité 0.8869134187698364
Hey 0.8867558240890503
Hayakei 0.8866025805473328
J'adorerais 0.8860080242156982
je me demande 0.8857483267784119
Mais 0.8853344321250916
Arrêtez 0.8850265145301819
âge 0.8849031925201416
k 0.884624719619751
laquelle 0.8840593695640564
Ou 0.8840340971946716
Vivre 0.883965253829956
Remise 0.8836942911148071
Par tous les moyens 0.8836302757263184
Pleurs 0.8831743597984314
yumalaonvae 0.883036196231842
o 0.8830046653747559
Remarque 0.8829131126403809
Pourquoi 0.8827589154243469

** Inégalité **, ** L'obscurité ** est comme la science Que sont les «réunions secrètes» et les «shimauma»?

Résumé

――Ce n'est pas bien fait parce que vous n'avez pas enlevé la poussière du tweet (peut-être) --Le nombre de tweets acquis est faible (1696 tweets cette fois)

Recommended Posts

J'ai vérifié l'image de l'Université des sciences sur Twitter avec Word2Vec.
J'ai essayé de trouver l'entropie de l'image avec python
J'ai essayé la "correction gamma" de l'image avec Python + OpenCV
J'ai étudié avec Kaggle Start Book basé sur kaggle [Partie 1]
J'ai vérifié le contenu du volume du docker
J'ai vérifié les options de copyMakeBorder d'OpenCV
Publier le sujet de Gmail sur Twitter
J'ai essayé de jouer avec l'image avec Pillow
J'ai essayé de "lisser" l'image avec Python + OpenCV
J'ai essayé la reconnaissance d'image de CIFAR-10 avec Keras-Learning-
Mathématiques Todai 2016 résolues avec Python
J'ai essayé de "différencier" l'image avec Python + OpenCV
J'ai essayé la reconnaissance d'image de CIFAR-10 avec la reconnaissance d'image Keras-
J'ai vérifié la liste des touches de raccourci de Jupyter
J'ai essayé de "binariser" l'image avec Python + OpenCV
J'ai vérifié la période de rétention de session de django
J'ai vérifié la vitesse de traitement de la numpy unidimensionnelle
J'ai essayé d'utiliser le filtre d'image d'OpenCV
J'ai essayé de jouer avec la calculatrice avec tkinter
J'ai installé Pygame avec Python 3.5.1 dans l'environnement de pyenv sur OS X
J'ai essayé la détection d'objets avec YOLO v3 (TensorFlow 2.1) sur le GPU de windows!
J'ai créé une application Twitter qui décrypte les caractères de pré-connexion avec heroku (échec)
Extraire le tableau des fichiers image avec OneDrive et Python
[OpenCV / Python] J'ai essayé l'analyse d'image de cellules avec OpenCV
Je veux tracer les informations de localisation de GTFS Realtime sur Jupyter! (Avec ballon)
Peut-être ai-je surestimé l'impact de Shell Shock sur CGI
Essayez d'estimer le nombre de likes sur Twitter
J'ai vérifié les spécifications de sortie du LSTM bidirectionnel de PyTorch
J'ai vérifié les versions de Blender et Python
Prédire le sexe des utilisateurs de Twitter grâce à l'apprentissage automatique
J'ai mesuré les performances d'un million de documents avec mongoDB
J'ai vérifié le système d'exploitation et le shell par défaut de docker-machine
Tweetez le triple pronostic de la course de bateaux sur Twitter
J'ai créé une application Twitter qui identifie et enregistre l'image d'un personnage spécifique sur la chronologie de Twitter par pytorch transfer learning
Quand j'ai calculé les mots similaires de prudent + courageux avec word2vec, cela me semblait étonnamment raisonnable
J'ai essayé de trouver la moyenne de plusieurs colonnes avec TensorFlow
J'ai écrit la grammaire de base de Python dans Jupyter Lab
Exécutons la commande à temps avec le bot discord
J'ai évalué la stratégie de négociation du système boursier avec Python.
J'ai essayé d'implémenter l'algorithme FloodFill avec TRON BATTLE de CodinGame
J'ai fait une image ponctuelle de l'image d'Irasutoya. (partie 1)
Jusqu'au début du tutoriel django avec pycharm sous Windows
J'ai fait une image ponctuelle de l'image d'Irasutoya. (partie 2)
J'ai écrit le fonctionnement de base de matplotlib dans Jupyter Lab
Obtenez le nom d'hôte du PC hôte avec Docker sous Linux
J'ai créé Word2Vec avec Pytorch
J'ai essayé de créer un script qui retrace les tweets d'un utilisateur spécifique sur Twitter et enregistre l'image publiée à la fois
J'ai essayé de résoudre la première question de l'examen d'entrée en mathématiques 2019 de l'Université de Tokyo avec python sympy
Jeu de vie avec Python [je l'ai fait] (sur terminal et Tkinter)
Lire les coordonnées du tracé sur le graphe avec Python-matplotlib (super débutant)
J'ai comparé la vitesse de Hash avec Topaz, Ruby et Python
Calculez la similitude entre les phrases avec Doc2Vec, une évolution de Word2Vec
[Statistiques] Saisir l'image de la théorie de la limitation du pôle central avec un graphe
[Python] J'ai écrit la route du typhon sur la carte en utilisant le folium
J'ai essayé la validation croisée basée sur le résultat de la recherche de grille avec scikit-learn
J'ai essayé de créer l'image de démarrage SD de LicheePi Nano
[Introduction à StyleGAN] J'ai joué avec "The Life of a Man" ♬
J'ai essayé de traiter l'image en "style croquis" avec OpenCV
Considérez la vitesse de traitement pour déplacer le tampon d'image avec numpy.ndarray
J'ai analysé les tweets sur le nouveau virus corona publiés sur Twitter, partie 2