[PYTHON] J'ai essayé de résumer ce qui était sorti avec Qiita avec Word cloud

Ceci est le 10ème article du Calendrier de l'Avent Protoout Studio!

Aperçu

Après être entré dans le studio proto-out, j'ai commencé à produire avec Qiita. (Bien qu'il y en ait encore peu)

Donc cette fois, en reflet de ce que j'ai écrit jusqu'ici, Je voudrais visualiser ce que je produis avec Word Cloud of Python.

À propos de Word Cloud

WordCloud sélectionne les mots qui apparaissent fréquemment dans les phrases et les illustre dans une taille en fonction de la fréquence d'apparition des mots. Il existe une bibliothèque pour Python, je vais donc me référer au code ici également. http://amueller.github.io/word_cloud/index.html

Collectez des phrases en grattant

Afin de le visualiser dans Word Cloud, je vais gratter mon Qiita et collecter des phrases (matériaux). En utilisant mes articles précédents

Tout d'abord, collectez et visualisez les informations de balise de l'article.

scraping.py


import urllib.request
from bs4 import BeautifulSoup

url = "https://qiita.com/sksk_go"
res = urllib.request.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
#Réécrire pour l'acquisition de balises
name = soup.find_all("a",class_="u-link-unstyled TagList__label")
ret = []
for t in name:
    ret.append(t.text)

print(ret)

Exprimons le texte collecté dans Word Cloud.

Traité par Word Cloud

Je vais me référer à cet article. [Python] J'ai essayé de visualiser la nuit du chemin de fer galactique avec WordCloud!

wordcloud.py


import MeCab
from wordcloud import WordCloud

data = open("data.txt","rb").read()
text = data.decode('utf-8')

mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)

data_text = []

while node:
    word = node.surface
    hinnsi = node.feature.split(",")[0]
    if hinnsi in ["verbe","adverbe","adjectif","nom"]:
        data_text.append(word)
    else:
        print("|{0}|La partie du mot est{1}Alors n'ajoute pas".format(node.surface,node.feature.split(",")[0]))
        print("-"*35)
    node = node.next

text = ' '.join(data_text)
#Mots exclus
stop_words = [ u'Teru', u'Est', u'Devenir', u'Être', u'Faire', u'y a-t-il', u'chose', u'cette', u'M.', u'fais le', \
             u'Donnez-moi', u'faire', u'Donnez-moi', u'alors', u'Laisser', u'fait',  u'pense',  \
             u'Il', u'ici', u'Chan', u'Kun', u'', u'main',u'À',u'À',u'Est',u'de', u'Mais', u'Quand', u'Ta', u'Shi', u'alors', \
             u'Absent', u'Aussi', u'Nana', u'je', u'Ou', u'Alors', u'Yo', u'']
wordcloud = WordCloud(font_path='/System/Library/Fonts/Hiragino Mincho ProN.ttc',width=480, height=300,background_color='white',stopwords=set(stop_words))
#Générez un nuage de mots à partir de texte.
wordcloud.generate(text)
#Enregistrer dans un fichier.
wordcloud.to_file('wordcloud.png')

Voici ce que j'ai fait

wordcloud.png

La quantité d'articles est petite, donc c'est effrayant ... Sentir qu'il y a beaucoup de composants Python. Cela inclut également l'IoT, que j'ai beaucoup appris.

prime

Comme il ne s'agissait que d'une balise plus tôt, je vais prendre le texte de mon article Qiita et le visualiser avec Word Cloud. wordcloud2.png

Il y a des mots étranges dedans, mais je peux comprendre ce que je veux dire. Après tout, il existe de nombreux composants tels que Python et l'apprentissage automatique. Mon intérêt est plutôt fort. Vous pouvez voir la tendance.

À la fin

J'ai essayé d'utiliser Word Cloud avec Qiita comme sujet, mais il semble plus intéressant de le prendre à partir de phrases ordinaires telles que Twitter et les blogs. Il semble intéressant d'essayer avec des paroles, des romans et de telles phrases.

C'est aki_suga! impatient de!

Recommended Posts

J'ai essayé de résumer ce qui était sorti avec Qiita avec Word cloud
J'ai essayé de sortir LLVM IR avec Python
J'ai essayé de créer un pipeline ML avec Cloud Composer
J'ai essayé de résumer SparseMatrix
Ce à quoi j'étais accro avec json.dumps dans l'encodage base64 de Python
J'ai essayé de résumer les remarques de tout le monde sur le slack avec wordcloud (Python)
J'ai essayé de résumer la gestion des exceptions Python
J'ai essayé d'implémenter Autoencoder avec TensorFlow
J'ai essayé de résumer la commande umask
J'ai essayé de visualiser AutoEncoder avec TensorFlow
J'ai essayé de reconnaître le mot de réveil
J'ai essayé de commencer avec Hy
Entrée standard Python3 que j'ai essayé de résumer
J'ai essayé de résumer la modélisation graphique.
J'ai essayé d'implémenter CVAE avec PyTorch
J'ai essayé de résoudre TSP avec QAOA
Ce que j'étais accro à Python autorun
J'ai essayé de résumer les modules d'Ansible - l'édition Linux
[AWS] [GCP] J'ai essayé de rendre les services cloud faciles à utiliser avec Python
J'ai essayé d'obtenir le code d'authentification de l'API Qiita avec Python.
Comme c'est le 20e anniversaire de la formation, j'ai essayé de visualiser les paroles de Parfum avec Word Cloud
J'ai essayé d'implémenter la lecture de Dataset avec PyTorch
J'ai essayé d'utiliser lightGBM, xg boost avec Boruta
J'ai essayé d'apprendre le fonctionnement logique avec TF Learn
J'ai essayé de déplacer GAN (mnist) avec keras
J'ai essayé de sauvegarder les données avec discorde
J'ai essayé de détecter rapidement un mouvement avec OpenCV
J'ai essayé d'intégrer Keras dans TFv1.1
J'ai essayé d'obtenir des données CloudWatch avec Python
J'ai essayé de détecter un objet avec M2Det!
J'ai essayé d'automatiser la fabrication des sushis avec python
J'ai essayé de prédire la survie du Titanic avec PyCaret
Qiita Job J'ai essayé d'analyser le travail
J'ai essayé d'utiliser Linux avec Discord Bot
J'ai essayé d'étudier DP avec séquence de Fibonacci
J'ai essayé de démarrer Jupyter avec toutes les lumières d'Amazon
J'ai essayé de juger Tundele avec Naive Bays
LeetCode j'ai essayé de résumer les plus simples
J'ai essayé de résumer les opérations susceptibles d'être utilisées avec numpy-stl
J'ai essayé d'entraîner la fonction péché avec chainer
J'ai essayé de déplacer l'apprentissage automatique (détection d'objet) avec TouchDesigner
J'ai essayé d'extraire des fonctionnalités avec SIFT d'OpenCV
J'ai essayé de déplacer Faster R-CNN rapidement avec pytorch
J'ai essayé de lire et d'enregistrer automatiquement avec VOICEROID2 2
J'ai essayé de résumer comment utiliser matplotlib de python
J'ai essayé d'implémenter et d'apprendre DCGAN avec PyTorch
J'ai essayé de résumer la forme de base de GPLVM
J'ai essayé de démarrer avec le script python de blender_Part 01
J'ai essayé de toucher un fichier CSV avec Python
Racler votre article Qiita pour créer un nuage de mots
Quand j'ai essayé de faire une communication socket avec Raspberry Pi, le protocole était différent
J'ai essayé de lire et d'enregistrer automatiquement avec VOICEROID2
J'ai essayé de démarrer avec le script python de blender_Partie 02
J'ai essayé de générer ObjectId (clé primaire) avec pymongo
J'ai essayé d'implémenter le perceptron artificiel avec python
pickle Pour lire ce qui a été fait en 2 séries avec 3 séries
J'ai essayé de découvrir notre obscurité avec l'API Chatwork