Lassen Sie uns Text Mining sehr einfach mit der Python 3.x-Serie durchführen.
** Dieses Mal können Sie nicht nur so viel wie möglich auf dem LINUX-Terminal verarbeiten, damit auch Personen, die Python noch nie verwendet haben, es verstehen, sondern auch die einzugebenden Befehle beschreiben! ** (Ich weiß nichts über Python ...)
Text Mining (englisch: Text Mining) ist Data Mining für Zeichenfolgen. Dies ist eine Methode zur Analyse von Textdaten, bei der nützliche Informationen extrahiert werden, indem Daten, die aus gewöhnlichen Sätzen bestehen, in Wörter und Phrasen unterteilt und die Häufigkeit ihres Auftretens, die Korrelation des gemeinsamen Auftretens, die Tendenz des Auftretens und die Zeitreihen analysiert werden. Quelle [Wikipedia](https://ja.m.wikipedia.org/wiki/%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E% E3% 82% A4% E3% 83% 8B% E3% 83% B3% E3% 82% B0)
Lassen Sie uns diesmal eine * Wortwolke * mit Text Mining-Technologie erstellen! Das ist eine Wortwolke. ↓
Bereiten Sie zunächst die zu analysierenden Daten vor. Es ist jedoch schwierig, sich sofort vorzubereiten, daher werde ich dieses Mal die Tweet-Daten ** des Online-Events ** "Idol Master Shiny Colors MUSIC DAWN DAY 1" vom 31. Oktober verwenden.
Klicke hier zum herunterladen [Textdaten # Shanimas MUSICDAWNday2](https://www.github.com/ysok2135/py/tree/main/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3 % E6% 9E% 90% E5% 85% 83% E3% 83% 86% E3% 82% 99% E3% 83% BC% E3% 82% BF_SC_DOWN_20201031_utf8.csv)
sudo apt install python3.7
Im Gegensatz zu Englisch trennt Japanisch keine Segmente durch Leerzeichen, sodass Sie kein Text Mining von Anfang an durchführen können. Daher werden wir dieses Mal die auf den Straßen bekannte ** Open-Source-Engine für morphologische Analysen MeCab ** verwenden.
Geben Sie die folgende Befehlsreihenfolge ein.
udo apt install mecab
sudo apt install libmecab-dev
sudo apt install mecab-ipadic
sudo apt install mecab-ipadic-utf8
pip install mecab-python3
Wenn Sie die Suchgenauigkeit verbessern möchten, sollten Sie auch ein zusätzliches Wörterbuch wie NEologd installieren. Diesmal ist dies jedoch nicht ärgerlich.
Viele Websites laufen auf Python, aber ich denke, das ist viel einfacher. Setzen Sie zunächst die Analysequelldatei auf "test.txt". Geben Sie dann Folgendes in das Terminal ein:
mecab -Owakati test.txt -o sample.txt
**das ist alles! ** **. Wenn ich die Datei überprüfe, wird sie ordnungsgemäß analysiert.
pip install wordcloud
Das ist alles.
Kopieren Sie den folgenden Beispielcode.
sample.py
from wordcloud import WordCloud
with open('sample.txt') as f:
text = f.read()
stop_words = [ u'https', u'co', u'Vielen Dank', u'RT', u'Ah', u'']
wc = WordCloud(background_color="white",width=1600, height=1200, font_path='GenEiLateGoP_v2.ttf', stopwords=set(stop_words))
wc.generate(text)
wc.to_file('wc1.png')
** ① Wordcloud lesen und Dateien importieren **
from wordcloud import WordCloud
with open('sample.txt') as f:
text = f.read()
** ② Verschiedene Einstellungen ** stop_words ・ ・ ・ Festlegen von Schlüsselwörtern zum Ausschließen ** Es wird empfohlen, dies mehrmals zu versuchen und Schlüsselwörter festzulegen. ** **. Hintergrundfarbe ・ ・ ・ Hintergrundfarbe Breite, Höhe ・ ・ ・ Stellen Sie die Größe des Bildes ein (Einheit ist Pixel) fonf_path ・ ・ ・ Geben Sie den Schriftpfad an (diesmal verwende ich die englische Quelle Latemin). ↑ ** [Super wichtig! Wenn Sie die japanische Schrift nicht laden, erhalten Sie Tofu! !! !! ] ** **
stop_words = [ u'https', u'co', u'Vielen Dank', u'RT', u'Ah', u'']
wc = WordCloud(background_color="white",width=1600, height=1200, font_path='GenEiLateGoP_v2.ttf', stopwords=set(stop_words))
** ③ Ausführungsverarbeitung **
wc.generate(text)
wc.to_file('wc1.png')
python3 sample.py
Ausführungsergebnis
Toll! !! !! Mr. Tsudas Anwesenheit ist gefährlich! (Lol)
Sie können es mit dem Thema von Aozora Bunko sehen. Ich hoffe, dass Sie sich für emotionale Analysen und so weiter interessieren. Danke bis zum Ende.
* Verifizierungsumgebung
Ubuntu 18.04 LTS
Python 3.7
Recommended Posts