[PYTHON] Ich habe das Bild der Science University auf Twitter mit Word2Vec überprüft.

Machen

Holen Sie sich Tweets mit Twitter API

Ich habe das ursprüngliche Ruby-Skript verwendet.

# gem install twitter
require "twitter"

client = Twitter::REST::Client.new do |config|
  config.consumer_key        = ""
  config.consumer_secret     = ""
  config.access_token        = ""
  config.access_token_secret = ""
end

@result = client.search("Wissenschaftsuniversität").take(10000)

File.open("tus.csv", 'w') do |file|
  @result.each do |tweet|
    file.write(tweet.text.gsub(/(\s)/,""))
    file.write("\n")
  end
end

Sie haben eine CSV-Datei. Es gibt viele Artikel über das Erhalten von Token, daher werde ich darauf verzichten.

Fügen Sie Mecab ein Wort hinzu


cd /usr/local/lib/mecab/dic
mkdir userdic
cd userdic
touch tus.csv
echo 'Wissenschaftsuniversität,,,1,Substantiv,Allgemeines,*,*,*,*,Rikadai,Rikadai,Rikadai' >> tus.csv

#kompilieren
/usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u tus.dic \
-f utf-8 \
-t utf-8 tus.csv

#Drücken Sie zum Kompilieren die Eingabetaste

reading tus.csv ... 1
emitting double-array: 100% |###########################################| 

done!

#durch den Weg gehen

vi /usr/local/etc/mecabrc
#Geben Sie an, wo sich das generierte Würfel befindet
userdic = /usr/local/lib/mecab/dic/userdic/tus.dic

word2vec

# coding: UTF-8
import pandas as pd
import numpy as np
import MeCab

tweets = pd.read_csv('/Users/Hiroto/git/scripts/tus.csv').tweet

#Erstellen Sie eine separate Datei
wakati = ""
for tweet in tweets:
    mt = MeCab.Tagger("-Owakati")
    wakati = wakati + mt.parse(tweet)

f = open('tus_wakati.txt', 'w')
f.write(wakati)
f.close()

# word2vec
from gensim.models import word2vec
data = word2vec.Text8Corpus('tus_wakati.txt')
model = word2vec.Word2Vec(data, size=100)

Ähnlichkeit des Themas

out=model.most_similar(positive=[u'Wissenschaftsuniversität'],topn= 100)
for x in out:
    print(x[0],x[1])
Wort Ähnlichkeitsgrad
Hallo 0.9801737666130066
U. 0.9679325222969055
Welt 0.9637500643730164
Ungleichheit 0.9604602456092834
Ja 0.9603763818740845
Damit 0.9602923393249512
ist 0.9574853181838989
Diese Art von 0.9568058252334595
Lol 0.9534944295883179
Dunkelheit 0.9462004899978638
0.9435620307922363
0.9433774948120117
Roh 0.942541241645813
Von 0.9420970678329468
Gut 0.9348764419555664
Yo 0.9348678588867188
0.9291704893112183
Gefühl 0.929074764251709
Mich 0.9288586378097534
zusammen 0.9273968935012817
Twitter 0.9265207052230835
Ist 0.9249017238616943
Geheimes Treffen 0.9227114915847778
Teru 0.9216452836990356
Gehen 0.9207674264907837
Gott 0.9192628264427185
Viel Glück 0.918117880821228
Ah ~ 0.9180813431739807
Unangenehm 0.9164369106292725
Grund 0.9164099097251892
Waka 0.9158462882041931
Verstanden 0.915264368057251
) 0.913904070854187
Ist 0.9111155867576599
Köstlich 0.9105844497680664
Nana 0.9098367691040039
Mann 0.909660816192627
Scheisse 0.9095121622085571
damit 0.907973051071167
Wenn 0.906628429889679
Bedeutung 0.9065468311309814
Sophia 0.905195415019989
Oder 0.9034873247146606
Kerl 0.9014643430709839
Gehen 0.8999437689781189
Was 0.8993074893951416
Trinken 0.8984052538871765
march 0.8983776569366455
Sagen 0.8976813554763794
Ta 0.8964160680770874
Häufig 0.896243691444397
Essen 0.8960259556770325
will sehen 0.8957585096359253
Kind 0.8946411609649658
Freut mich, dich kennenzulernen 0.8943185806274414
Wollen 0.8941484689712524
Atemberaubend 0.893967866897583
Zebra 0.8935203552246094
Zu 0.8934850692749023
Sie 0.8934849500656128
Erleuchtung 0.8927890062332153
gehen 0.8927274942398071
Ichi 0.8926646709442139
Ist 0.8919773697853088
Arithmetik 0.8915943503379822
( 0.8915064930915833
Warum 0.8907312154769897
Literarisches System 0.8906354904174805
Hmm 0.8897289037704468
- - 0.8896894454956055
Ja 0.8896220922470093
Abteilung 0.8895649313926697
K 0.8881763219833374
Gedanken 0.8881138563156128
Ich weiß es nicht 0.8880779147148132
Schule 0.8879990577697754
Aber 0.8878818154335022
Vorfall 0.8878498077392578
Bitte 0.8875197172164917
Kennt 0.8871732354164124
Iwa 0.8870071172714233
Persönlichkeit 0.8869134187698364
Hallo 0.8867558240890503
Hayakei 0.8866025805473328
Ich würde es gerne tun 0.8860080242156982
Ich wundere mich 0.8857483267784119
Aber 0.8853344321250916
Halt 0.8850265145301819
Alter 0.8849031925201416
k 0.884624719619751
welcher 0.8840593695640564
Oder 0.8840340971946716
Leben 0.883965253829956
Rabatt 0.8836942911148071
Mit allen Mitteln 0.8836302757263184
Weinen 0.8831743597984314
yumalaonvae 0.883036196231842
o 0.8830046653747559
Hinweis 0.8829131126403809
Warum 0.8827589154243469

** Ungleichheit **, ** Dunkelheit ** ist wie Wissenschaft Was sind "geheimes Treffen" und "Shimauma"?

Zusammenfassung

――Es ist nicht gut gemacht, weil Sie den Staub nicht vom Tweet entfernt haben (vielleicht)

Recommended Posts

Ich habe das Bild der Science University auf Twitter mit Word2Vec überprüft.
Ich habe versucht, die Entropie des Bildes mit Python zu finden
Ich habe versucht, das Bild mit Python + OpenCV "gammakorrektur" zu machen
Ich habe mit Kaggle Start Book basierend auf Kaggle studiert [Teil 1]
Ich habe den Inhalt des Docker-Volumes überprüft
Ich habe die Optionen von copyMakeBorder von OpenCV überprüft
Veröffentlichen Sie das Thema Google Mail auf Twitter
Ich habe versucht, mit Pillow mit dem Bild zu spielen
Ich habe versucht, das Bild mit Python + OpenCV zu "glätten"
Ich habe versucht, Bilder mit CIFAR-10 mit Keras-Learning- zu erkennen.
2016 Todai Mathematik mit Python gelöst
Ich habe versucht, das Bild mit Python + OpenCV zu "differenzieren"
Ich habe versucht, Bilder von CIFAR-10 mit Keras-Bilderkennung zu erkennen.
Ich habe die Liste der Tastenkombinationen von Jupyter überprüft
Ich habe versucht, das Bild mit Python + OpenCV zu "binarisieren"
Ich habe die Sitzungsaufbewahrungsdauer von Django überprüft
Ich habe die Verarbeitungsgeschwindigkeit der numpy eindimensionalisierung überprüft
Ich habe versucht, den Bildfilter von OpenCV zu verwenden
Ich habe versucht, mit tkinter mit dem Taschenrechner zu spielen
Ich habe Pygame mit Python 3.5.1 in der Umgebung von pyenv unter OS X installiert
Ich habe versucht, Objekte mit YOLO v3 (TensorFlow 2.1) auf der GPU von Windows zu erkennen!
Ich habe eine Twitter-App erstellt, die die Zeichen der Vorverbindung mit Heroku entschlüsselt (Fehler).
Extrahieren Sie die Tabelle der Bilddateien mit OneDrive & Python
[OpenCV / Python] Ich habe versucht, Bilder mit OpenCV zu analysieren
Ich möchte die Standortinformationen von GTFS Realtime auf Jupyter zeichnen! (Mit Ballon)
Vielleicht habe ich die Auswirkungen von Shell Shock auf CGI überschätzt
Versuchen Sie, die Anzahl der Likes auf Twitter zu schätzen
Ich habe die Ausgabespezifikationen von Bidirectional LSTM von PyTorch überprüft
Ich habe mir die Versionen von Blender und Python angesehen
Prognostizieren Sie das Geschlecht von Twitter-Nutzern durch maschinelles Lernen
Ich habe die Leistung von 1 Million Dokumenten mit mongoDB gemessen
Ich habe das Standardbetriebssystem und die Shell der Docker-Maschine überprüft
Tweet die dreifache Vorhersage des Bootsrennens auf Twitter
Ich habe eine Twitter-App erstellt, die das Bild eines bestimmten Charakters auf der Twitter-Timeline durch Pytorch-Transfer-Lernen identifiziert und speichert
Als ich die ähnlichen Wörter vorsichtig + mutig mit word2vec berechnete, fühlte es sich unerwartet vernünftig an
Ich habe versucht, mit TensorFlow den Durchschnitt mehrerer Spalten zu ermitteln
Ich habe die grundlegende Grammatik von Python in Jupyter Lab geschrieben
Lassen Sie uns den Befehl pünktlich mit dem Bot der Zwietracht ausführen
Ich habe die Strategie des Aktiensystemhandels mit Python evaluiert.
Ich habe versucht, den FloodFill-Algorithmus mit TRON BATTLE von CodinGame zu implementieren
Ich habe ein Punktbild des Bildes von Irasutoya gemacht. (Teil 1)
Bis zum Start des Django-Tutorials mit Pycharm unter Windows
Ich habe ein Punktbild des Bildes von Irasutoya gemacht. (Teil 2)
Ich habe die Grundoperation von matplotlib in Jupyter Lab geschrieben
Rufen Sie den Hostnamen des Host-PCs mit Docker unter Linux ab
Ich habe Word2Vec mit Pytorch gemacht
Ich habe versucht, ein Skript zu erstellen, das die Tweets eines bestimmten Benutzers auf Twitter verfolgt und das veröffentlichte Bild sofort speichert
Ich habe versucht, die erste Frage der Mathematik-Aufnahmeprüfung 2019 der Universität Tokio mit Python Sympy zu lösen
Lebensspiel mit Python [ich habe es geschafft] (auf Terminal & Tkinter)
Lesen Sie die Koordinaten des Diagramms in der Grafik mit Python-matplotlib (Super-Anfänger)
Ich habe die Geschwindigkeit von Hash mit Topaz, Ruby und Python verglichen
Berechnen Sie die Ähnlichkeit zwischen Sätzen mit Doc2Vec, einer Weiterentwicklung von Word2Vec
[Statistik] Erfassen Sie das Bild der zentralen Polbegrenzungstheorie mit einem Diagramm
[Python] Ich habe die Route des Taifuns mit Folium auf die Karte geschrieben
Ich habe eine Kreuzvalidierung basierend auf dem Rastersuchergebnis mit scikit-learn versucht
Ich habe versucht, das SD-Boot-Image von LicheePi Nano zu erstellen
[Einführung in StyleGAN] Ich habe mit "The Life of a Man" ♬ gespielt
Ich habe versucht, das Bild mit OpenCV im "Skizzenstil" zu verarbeiten
Berücksichtigen Sie die Verarbeitungsgeschwindigkeit, um den Bildpuffer mit numpy.ndarray zu verschieben
Ich habe die Tweets über den neuen Corona-Virus analysiert, die auf Twitter Teil 2 veröffentlicht wurden