Dieser Artikel ist der sechste Tag von estie Adventskalender 2019. Ich bin Ingenieur bei einem Immobilienunternehmen estie.inc.
Vor kurzem ist dieser Artikel ein heißes Thema geworden! [Python] Ich habe versucht, die Texte von Arashi mit WordCloud zu visualisieren und herauszufinden, was ich den Fans in 20 Jahren Ausbildung vermitteln wollte
Es freut mich sehr, wenn meine Lieblingsidole und -künstler seit vielen Jahren aktiv und geliebt sind. Als Fan verstehe ich ihre Worte und den Wunsch, zu bestätigen, was ich vermitteln wollte, wirklich.
Zufällig gibt es einen Künstler, der auch sein 20-jähriges Bestehen gefeiert hat.
Das stimmt, jeder liebt Parfüm.
Wie Sie wissen, hat Parfüm eine hohe Affinität zu Technologie und [Google Machine Learning](https://cloud.google.com/blog/ja/products/gcp/nhk-perfume-technology-reframe-your-photo- Wir senden weiterhin hochmoderne Ausdrücke wie Live-Produktion mit Google-Tensorflow und Live-Distribution auf 5G. Ich werde. Herr Rhizomatiks.
Also, als einer der Fans, die Parfüm seit ungefähr 10 Jahren live besuchen Ich werde versuchen, morphologische Analyse + WordCloud-Visualisierung von Parfüm-Texten.
Wie unsere Vorgänger Holen Sie sich Texte → Morphologische Analyse → WordCloud Ich werde das machen. Einzelheiten finden Sie unter Referenzseite
Ich habe nicht viel Text Mining durchgeführt, daher dachte ich, es sei MeCab, wenn es um morphologische Analysen geht. Es scheint, dass es verschiedene morphologische Analysewerkzeuge gibt, wenn ich es nachschlage.
Diesmal unter ihnen
Ich würde dieses Trio gerne ausprobieren.
MeCab Dies ist ein standardmäßiges morphologisches Analysetool, das vom aktuellen japanischen Google-Eingabeentwickler entwickelt wurde. Es funktioniert in jeder Umgebung, für die Analyse ist jedoch ein separates Wörterbuch erforderlich. Diesmal habe ich das offiziell empfohlene IPA-Wörterbuch + neues Wortwörterbuch verwendet
macab_.py
import MeCab
#Textdatei lesen
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')
#Morphologische Analyse
mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)
perfume_list = []
tags = ["Substantiv","Verb", "Adverb", "Adjektiv", "形容Verb"]
while node:
#Wortextraktion
word = node.surface
#Extraktion von Teilwörtern
word_class = node.feature.split(",")[0]
#Extrahieren Sie nur bestimmte Teilwörter
if word_class in tags:
perfume_list.append(word)
node = node.next
print(perfume_list)
Janome
Dies ist nach MeCab auch das zweitbeliebteste Analysetool.
Die Ausführungsgeschwindigkeit ist langsamer als bei MeCab, es gibt jedoch nur wenige Wörterbucheinschlüsse und abhängige Bibliotheken
pip install janome
Die Leichtigkeit, mit der die Installation abgeschlossen wird, ist attraktiv.
Es scheint, dass es häufig bei der Überprüfung der vorherigen Stufe von MeCab verwendet wird.
janome_.py
from janome.tokenizer import Tokenizer
#Textdatei lesen
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')
#Morphologische Analyse
t = Tokenizer()
seps = t.tokenize(text)
perfume_list = []
tags = ["Substantiv","Verb", "Adverb", "Adjektiv", "形容Verb"]
for _ in seps:
#Wortextraktion
if _.base_form == '*':
word = _.surface
else:
word = _.base_form
#Extraktion von Teilwörtern
ps = _.part_of_speech
word_class = ps.split(',')[0]
#Extrahieren Sie nur bestimmte Teilwörter
if word_class in tags:
perfume_list.append(word)
print(perfume_list)
Nagisa
Dies ist ein relativ neues Werkzeug. Einfach zu bauende Umgebung wie Janome
pip install nagisa
Die Installation ist abgeschlossen mit.
Diesmal sind es Texte, daher kann ich sie nicht verwenden, aber es scheint, dass ich robuste Analysen für Gesichtsbuchstaben und URLs durchführen kann.
Es ist einfach zu extrahieren, da es eine Filtermethode für die Ausgabe von Wörtern nach Teilen gibt.
nagisa_.py
import nagisa
#Textdatei lesen
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')
#Morphologische Analyse / Wortextraktion durch Angabe von Teilwörtern
tags = ["Substantiv","Verb", "Adverb", "Adjektiv", "形容Verb"]
perfume_list = nagisa.extract(text, extract_postags=tags).words
print(perfume_list)
Mecab
Janome
Nagisa
Mecab und Janome, die dasselbe Wörterbuch verwenden, lieferten ähnliche Ergebnisse.
Pa Pa Ich bin sicher, du liebst dich heute, ist es nicht eine Disco-Disco? Es gibt viele Songs, die die Songtitel wiederholen, so dass sich auch der Einfluss widerspiegelt!
Die Anzahl der Text Mining-Tools ist reichlich vorhanden und einfach zu verwenden, und ich bin froh, diese Art der Visualisierung problemlos durchführen zu können. Warum versuchst du es nicht mit deinem Lieblingskünstler?
Übrigens, in estie bin ich gerade dabei, indem ich Bürodaten visualisiere Wir bieten eine Vielzahl von Immobilien x Technologie Dienstleistungen. Wenn Sie Ihr Büro verlegen möchten, verwenden Sie bitte estie! Wir bieten auch eine Immobiliendatenplattform estie pro.
Außerdem sucht estie einen Webingenieur Wantedly Bitte besuchen Sie uns im Büro!
Recommended Posts