[PYTHON] Ich habe versucht zusammenzufassen, was mit Qiita mit Word Cloud ausgegeben wurde

Dies ist der 10. Artikel des Protoout Studio Adventskalenders!

Überblick

Nachdem ich das Proto-Out-Studio betreten hatte, begann ich mit Qiita zu produzieren. (Obwohl es noch wenige gibt)

Diesmal also als Reflexion dessen, was ich bisher geschrieben habe, Ich möchte visualisieren, was ich mit Word Cloud of Python ausgebe.

Über Word Cloud

WordCloud wählt Wörter aus, die häufig aus Sätzen erscheinen, und zeigt sie in einer Größe an, die der Häufigkeit des Auftretens der Wörter entspricht. Es gibt eine Bibliothek für Python, daher werde ich auch hier auf den Code verweisen. http://amueller.github.io/word_cloud/index.html

Sammle Sätze durch Schaben

Um es in Word Cloud zu visualisieren, werde ich meine Qiita kratzen und Sätze (Materialien) sammeln. Während ich meine früheren Artikel verwende

Sammeln und visualisieren Sie zunächst die Tag-Informationen des Artikels.

scraping.py


import urllib.request
from bs4 import BeautifulSoup

url = "https://qiita.com/sksk_go"
res = urllib.request.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
#Umschreiben für die Tag-Erfassung
name = soup.find_all("a",class_="u-link-unstyled TagList__label")
ret = []
for t in name:
    ret.append(t.text)

print(ret)

Lassen Sie uns den gesammelten Text in Word Cloud ausdrücken.

Verarbeitet von Word Cloud

Ich werde auf diesen Artikel verweisen. [Python] Ich habe versucht, die Nacht der Galaktischen Eisenbahn mit WordCloud zu visualisieren!

wordcloud.py


import MeCab
from wordcloud import WordCloud

data = open("data.txt","rb").read()
text = data.decode('utf-8')

mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)

data_text = []

while node:
    word = node.surface
    hinnsi = node.feature.split(",")[0]
    if hinnsi in ["Verb","Adverb","Adjektiv","Substantiv"]:
        data_text.append(word)
    else:
        print("|{0}|Der Teil des Wortes ist{1}Also nicht hinzufügen".format(node.surface,node.feature.split(",")[0]))
        print("-"*35)
    node = node.next

text = ' '.join(data_text)
#Ausgeschlossene Wörter
stop_words = [ u'Teru', u'Ist', u'Werden', u'Sein', u'Machen', u'Gibt es', u'Ding', u'Dies', u'Herr.', u'Tu es', \
             u'Gib mir', u'machen', u'Gib mir', u'damit', u'Lassen', u'tat',  u'Überlegen',  \
             u'Es', u'Hier', u'Chan', u'Kun', u'', u'Hand',u'Zu',u'Zu',u'Ist',u'von', u'Aber', u'Wann', u'Ta', u'Shi', u'damit', \
             u'Abwesend', u'Ebenfalls', u'Nana', u'ich', u'Oder', u'Damit', u'Yo', u'']
wordcloud = WordCloud(font_path='/System/Library/Fonts/Hiragino Mincho ProN.ttc',width=480, height=300,background_color='white',stopwords=set(stop_words))
#Generieren Sie eine Wortwolke aus Text.
wordcloud.generate(text)
#Speichern unter.
wordcloud.to_file('wordcloud.png')

Hier ist was ich gemacht habe

wordcloud.png

Die Anzahl der Artikel ist gering, daher ist es beängstigend ... Ich habe das Gefühl, dass es viele Python-Komponenten gibt. Es enthält auch IoT, was ich viel gelernt habe.

Bonus

Da es früher nur ein Tag war, werde ich den Text meines Qiita-Artikels nehmen und ihn mit Word Cloud visualisieren. wordcloud2.png

Es sind einige seltsame Worte darin, aber ich kann verstehen, was ich meine. Schließlich gibt es viele Komponenten wie Python und maschinelles Lernen. Mein Interesse ist ziemlich stark. Sie können die Tendenz sehen.

Am Ende

Ich habe versucht, Word Cloud mit Qiita als Thema zu verwenden, aber es scheint interessanter, es aus gewöhnlichen Sätzen wie Twitter und Blogs zu übernehmen. Es scheint interessant, es mit Texten, Romanen und solchen Sätzen zu versuchen.

Dies ist aki_suga! freue mich auf!

Recommended Posts

Ich habe versucht zusammenzufassen, was mit Qiita mit Word Cloud ausgegeben wurde
Ich habe versucht, LLVM IR mit Python auszugeben
Ich habe versucht, eine ML-Pipeline mit Cloud Composer zu erstellen
Ich habe versucht, SparseMatrix zusammenzufassen
Was ich mit json.dumps in Pythons base64-Codierung süchtig gemacht habe
Ich habe versucht, alle Bemerkungen von Slack mit Wordcloud (Python) zusammenzufassen.
Ich habe versucht, die Behandlung von Python-Ausnahmen zusammenzufassen
Ich habe versucht, Autoencoder mit TensorFlow zu implementieren
Ich habe versucht, den Befehl umask zusammenzufassen
Ich habe versucht, AutoEncoder mit TensorFlow zu visualisieren
Ich versuchte das Weckwort zu erkennen
Ich habe versucht, mit Hy anzufangen
Python3-Standardeingabe habe ich versucht zusammenzufassen
Ich habe versucht, die grafische Modellierung zusammenzufassen.
Ich habe versucht, CVAE mit PyTorch zu implementieren
Ich habe versucht, TSP mit QAOA zu lösen
Was ich süchtig nach Python Autorun war
Ich habe versucht, Ansibles Module-Linux-Edition zusammenzufassen
[AWS] [GCP] Ich habe versucht, die Verwendung von Cloud-Diensten mit Python zu vereinfachen
Ich habe versucht, den Authentifizierungscode der Qiita-API mit Python abzurufen.
Da es der 20. Jahrestag der Gründung ist, habe ich versucht, die Texte von Parfüm mit Word Cloud zu visualisieren
Ich habe versucht, das Lesen von Dataset mit PyTorch zu implementieren
Ich habe versucht, lightGBM, xg Boost mit Boruta zu verwenden
Ich habe versucht, mit TF Learn die logische Operation zu lernen
Ich habe versucht, GAN (mnist) mit Keras zu bewegen
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich habe versucht, mit OpenCV Bewegungen schnell zu erkennen
Ich habe versucht, Keras in TFv1.1 zu integrieren
Ich habe versucht, CloudWatch-Daten mit Python abzurufen
Ich habe versucht, ein Objekt mit M2Det zu erkennen!
Ich habe versucht, die Herstellung von Sushi mit Python zu automatisieren
Ich habe versucht, das Überleben der Titanic mit PyCaret vorherzusagen
Qiita Job Ich habe versucht, den Job zu analysieren
Ich habe versucht, Linux mit Discord Bot zu betreiben
Ich habe versucht, DP mit Fibonacci-Sequenz zu studieren
Ich habe versucht, Jupyter mit allen Amazon-Lichtern zu starten
Ich habe versucht, Tundele mit Naive Bays zu beurteilen
LeetCode Ich habe versucht, die einfachen zusammenzufassen
Ich habe versucht, die Operationen zusammenzufassen, die wahrscheinlich mit numpy-stl verwendet werden
Ich habe versucht, die Sündenfunktion mit Chainer zu trainieren
Ich habe versucht, maschinelles Lernen (Objekterkennung) mit TouchDesigner zu verschieben
Ich habe versucht, Funktionen mit SIFT von OpenCV zu extrahieren
Ich habe versucht, Faster R-CNN mit Pytorch auszuführen
Ich habe versucht, mit VOICEROID2 2 automatisch zu lesen und zu speichern
Ich habe versucht zusammenzufassen, wie man Matplotlib von Python verwendet
Ich habe versucht, DCGAN mit PyTorch zu implementieren und zu lernen
Ich habe versucht, die Grundform von GPLVM zusammenzufassen
Ich habe versucht, mit Blenders Python script_Part 01 zu beginnen
Ich habe versucht, eine CSV-Datei mit Python zu berühren
Verschrotten Sie Ihren Qiita-Artikel, um eine Wortwolke zu erstellen
Als ich versuchte, eine Socket-Kommunikation mit Raspberry Pi durchzuführen, war das Protokoll anders
Ich habe versucht, mit VOICEROID2 automatisch zu lesen und zu speichern
Ich habe versucht, mit Blenders Python script_Part 02 zu beginnen
Ich habe versucht, ObjectId (Primärschlüssel) mit Pymongo zu generieren
Ich habe versucht, künstliches Perzeptron mit Python zu implementieren
pickle Um zu lesen, was in 2 Serien mit 3 Serien gemacht wurde
Ich habe versucht, unsere Dunkelheit mit der Chatwork-API aufzudecken