Dies ist der 10. Artikel des Protoout Studio Adventskalenders!
Nachdem ich das Proto-Out-Studio betreten hatte, begann ich mit Qiita zu produzieren. (Obwohl es noch wenige gibt)
Diesmal also als Reflexion dessen, was ich bisher geschrieben habe, Ich möchte visualisieren, was ich mit Word Cloud of Python ausgebe.
WordCloud wählt Wörter aus, die häufig aus Sätzen erscheinen, und zeigt sie in einer Größe an, die der Häufigkeit des Auftretens der Wörter entspricht. Es gibt eine Bibliothek für Python, daher werde ich auch hier auf den Code verweisen. http://amueller.github.io/word_cloud/index.html
Um es in Word Cloud zu visualisieren, werde ich meine Qiita kratzen und Sätze (Materialien) sammeln. Während ich meine früheren Artikel verwende
Sammeln und visualisieren Sie zunächst die Tag-Informationen des Artikels.
scraping.py
import urllib.request
from bs4 import BeautifulSoup
url = "https://qiita.com/sksk_go"
res = urllib.request.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
#Umschreiben für die Tag-Erfassung
name = soup.find_all("a",class_="u-link-unstyled TagList__label")
ret = []
for t in name:
ret.append(t.text)
print(ret)
Lassen Sie uns den gesammelten Text in Word Cloud ausdrücken.
Ich werde auf diesen Artikel verweisen. [Python] Ich habe versucht, die Nacht der Galaktischen Eisenbahn mit WordCloud zu visualisieren!
wordcloud.py
import MeCab
from wordcloud import WordCloud
data = open("data.txt","rb").read()
text = data.decode('utf-8')
mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)
data_text = []
while node:
word = node.surface
hinnsi = node.feature.split(",")[0]
if hinnsi in ["Verb","Adverb","Adjektiv","Substantiv"]:
data_text.append(word)
else:
print("|{0}|Der Teil des Wortes ist{1}Also nicht hinzufügen".format(node.surface,node.feature.split(",")[0]))
print("-"*35)
node = node.next
text = ' '.join(data_text)
#Ausgeschlossene Wörter
stop_words = [ u'Teru', u'Ist', u'Werden', u'Sein', u'Machen', u'Gibt es', u'Ding', u'Dies', u'Herr.', u'Tu es', \
u'Gib mir', u'machen', u'Gib mir', u'damit', u'Lassen', u'tat', u'Überlegen', \
u'Es', u'Hier', u'Chan', u'Kun', u'', u'Hand',u'Zu',u'Zu',u'Ist',u'von', u'Aber', u'Wann', u'Ta', u'Shi', u'damit', \
u'Abwesend', u'Ebenfalls', u'Nana', u'ich', u'Oder', u'Damit', u'Yo', u'']
wordcloud = WordCloud(font_path='/System/Library/Fonts/Hiragino Mincho ProN.ttc',width=480, height=300,background_color='white',stopwords=set(stop_words))
#Generieren Sie eine Wortwolke aus Text.
wordcloud.generate(text)
#Speichern unter.
wordcloud.to_file('wordcloud.png')
Die Anzahl der Artikel ist gering, daher ist es beängstigend ... Ich habe das Gefühl, dass es viele Python-Komponenten gibt. Es enthält auch IoT, was ich viel gelernt habe.
Da es früher nur ein Tag war, werde ich den Text meines Qiita-Artikels nehmen und ihn mit Word Cloud visualisieren.
Es sind einige seltsame Worte darin, aber ich kann verstehen, was ich meine. Schließlich gibt es viele Komponenten wie Python und maschinelles Lernen. Mein Interesse ist ziemlich stark. Sie können die Tendenz sehen.
Ich habe versucht, Word Cloud mit Qiita als Thema zu verwenden, aber es scheint interessanter, es aus gewöhnlichen Sätzen wie Twitter und Blogs zu übernehmen. Es scheint interessant, es mit Texten, Romanen und solchen Sätzen zu versuchen.
Dies ist aki_suga! freue mich auf!
Recommended Posts