Dies ist der 10. Artikel des Protoout Studio Adventskalenders!

Überblick

Nachdem ich das Proto-Out-Studio betreten hatte, begann ich mit Qiita zu produzieren. (Obwohl es noch wenige gibt)

Diesmal also als Reflexion dessen, was ich bisher geschrieben habe, Ich möchte visualisieren, was ich mit Word Cloud of Python ausgebe.

Über Word Cloud

WordCloud wählt Wörter aus, die häufig aus Sätzen erscheinen, und zeigt sie in einer Größe an, die der Häufigkeit des Auftretens der Wörter entspricht. Es gibt eine Bibliothek für Python, daher werde ich auch hier auf den Code verweisen. http://amueller.github.io/word_cloud/index.html

Sammle Sätze durch Schaben

Um es in Word Cloud zu visualisieren, werde ich meine Qiita kratzen und Sätze (Materialien) sammeln. Während ich meine früheren Artikel verwende

Sammeln und visualisieren Sie zunächst die Tag-Informationen des Artikels.

`scraping.py`


import urllib.request
from bs4 import BeautifulSoup

url = "https://qiita.com/sksk_go"
res = urllib.request.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
#Umschreiben für die Tag-Erfassung
name = soup.find_all("a",class_="u-link-unstyled TagList__label")
ret = []
for t in name:
    ret.append(t.text)

print(ret)

Lassen Sie uns den gesammelten Text in Word Cloud ausdrücken.

Verarbeitet von Word Cloud

Ich werde auf diesen Artikel verweisen. [Python] Ich habe versucht, die Nacht der Galaktischen Eisenbahn mit WordCloud zu visualisieren!

`wordcloud.py`


import MeCab
from wordcloud import WordCloud

data = open("data.txt","rb").read()
text = data.decode('utf-8')

mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)

data_text = []

while node:
    word = node.surface
    hinnsi = node.feature.split(",")[0]
    if hinnsi in ["Verb","Adverb","Adjektiv","Substantiv"]:
        data_text.append(word)
    else:
        print("|{0}|Der Teil des Wortes ist{1}Also nicht hinzufügen".format(node.surface,node.feature.split(",")[0]))
        print("-"*35)
    node = node.next

text = ' '.join(data_text)
#Ausgeschlossene Wörter
stop_words = [ u'Teru', u'Ist', u'Werden', u'Sein', u'Machen', u'Gibt es', u'Ding', u'Dies', u'Herr.', u'Tu es', \
             u'Gib mir', u'machen', u'Gib mir', u'damit', u'Lassen', u'tat',  u'Überlegen',  \
             u'Es', u'Hier', u'Chan', u'Kun', u'', u'Hand',u'Zu',u'Zu',u'Ist',u'von', u'Aber', u'Wann', u'Ta', u'Shi', u'damit', \
             u'Abwesend', u'Ebenfalls', u'Nana', u'ich', u'Oder', u'Damit', u'Yo', u'']
wordcloud = WordCloud(font_path='/System/Library/Fonts/Hiragino Mincho ProN.ttc',width=480, height=300,background_color='white',stopwords=set(stop_words))
#Generieren Sie eine Wortwolke aus Text.
wordcloud.generate(text)
#Speichern unter.
wordcloud.to_file('wordcloud.png')

Hier ist was ich gemacht habe

Die Anzahl der Artikel ist gering, daher ist es beängstigend ... Ich habe das Gefühl, dass es viele Python-Komponenten gibt. Es enthält auch IoT, was ich viel gelernt habe.

Bonus

Da es früher nur ein Tag war, werde ich den Text meines Qiita-Artikels nehmen und ihn mit Word Cloud visualisieren.

Es sind einige seltsame Worte darin, aber ich kann verstehen, was ich meine. Schließlich gibt es viele Komponenten wie Python und maschinelles Lernen. Mein Interesse ist ziemlich stark. Sie können die Tendenz sehen.

Am Ende

Ich habe versucht, Word Cloud mit Qiita als Thema zu verwenden, aber es scheint interessanter, es aus gewöhnlichen Sätzen wie Twitter und Blogs zu übernehmen. Es scheint interessant, es mit Texten, Romanen und solchen Sätzen zu versuchen.

Dies ist aki_suga! freue mich auf!

Recommended Posts

Ich habe versucht zusammenzufassen, was mit Qiita mit Word Cloud ausgegeben wurde

Ich habe versucht, LLVM IR mit Python auszugeben

Ich habe versucht, eine ML-Pipeline mit Cloud Composer zu erstellen

Ich habe versucht, SparseMatrix zusammenzufassen

Was ich mit json.dumps in Pythons base64-Codierung süchtig gemacht habe

Ich habe versucht, alle Bemerkungen von Slack mit Wordcloud (Python) zusammenzufassen.

Ich habe versucht, die Behandlung von Python-Ausnahmen zusammenzufassen

Ich habe versucht, Autoencoder mit TensorFlow zu implementieren

Ich habe versucht, den Befehl umask zusammenzufassen

Ich habe versucht, AutoEncoder mit TensorFlow zu visualisieren