Da es der 20. Jahrestag der Gründung ist, habe ich versucht, die Texte von Parfüm mit Word Cloud zu visualisieren

perfume.png

Dieser Artikel ist der sechste Tag von estie Adventskalender 2019. Ich bin Ingenieur bei einem Immobilienunternehmen estie.inc.

Einführung

Vor kurzem ist dieser Artikel ein heißes Thema geworden! [Python] Ich habe versucht, die Texte von Arashi mit WordCloud zu visualisieren und herauszufinden, was ich den Fans in 20 Jahren Ausbildung vermitteln wollte

Es freut mich sehr, wenn meine Lieblingsidole und -künstler seit vielen Jahren aktiv und geliebt sind. Als Fan verstehe ich ihre Worte und den Wunsch, zu bestätigen, was ich vermitteln wollte, wirklich.

Zufällig gibt es einen Künstler, der auch sein 20-jähriges Bestehen gefeiert hat.

Das stimmt, jeder liebt Parfüm.

Wie Sie wissen, hat Parfüm eine hohe Affinität zu Technologie und [Google Machine Learning](https://cloud.google.com/blog/ja/products/gcp/nhk-perfume-technology-reframe-your-photo- Wir senden weiterhin hochmoderne Ausdrücke wie Live-Produktion mit Google-Tensorflow und Live-Distribution auf 5G. Ich werde. Herr Rhizomatiks.

Also, als einer der Fans, die Parfüm seit ungefähr 10 Jahren live besuchen Ich werde versuchen, morphologische Analyse + WordCloud-Visualisierung von Parfüm-Texten.

Umgebung

Weise

Wie unsere Vorgänger Holen Sie sich Texte → Morphologische Analyse → WordCloud Ich werde das machen. Einzelheiten finden Sie unter Referenzseite

Morphologisches Analysewerkzeug

Ich habe nicht viel Text Mining durchgeführt, daher dachte ich, es sei MeCab, wenn es um morphologische Analysen geht. Es scheint, dass es verschiedene morphologische Analysewerkzeuge gibt, wenn ich es nachschlage.

Diesmal unter ihnen

Ich würde dieses Trio gerne ausprobieren.

MeCab Dies ist ein standardmäßiges morphologisches Analysetool, das vom aktuellen japanischen Google-Eingabeentwickler entwickelt wurde. Es funktioniert in jeder Umgebung, für die Analyse ist jedoch ein separates Wörterbuch erforderlich. Diesmal habe ich das offiziell empfohlene IPA-Wörterbuch + neues Wortwörterbuch verwendet

macab_.py


import MeCab

#Textdatei lesen
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')

#Morphologische Analyse
mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)

perfume_list = []
tags = ["Substantiv","Verb", "Adverb", "Adjektiv", "形容Verb"]

while node:
    #Wortextraktion
    word = node.surface
    #Extraktion von Teilwörtern
    word_class = node.feature.split(",")[0]
    
    #Extrahieren Sie nur bestimmte Teilwörter
    if word_class in tags:
        perfume_list.append(word)

    node = node.next

print(perfume_list)

Janome Dies ist nach MeCab auch das zweitbeliebteste Analysetool. Die Ausführungsgeschwindigkeit ist langsamer als bei MeCab, es gibt jedoch nur wenige Wörterbucheinschlüsse und abhängige Bibliotheken pip install janome Die Leichtigkeit, mit der die Installation abgeschlossen wird, ist attraktiv. Es scheint, dass es häufig bei der Überprüfung der vorherigen Stufe von MeCab verwendet wird.

janome_.py


from janome.tokenizer import Tokenizer

#Textdatei lesen
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')

#Morphologische Analyse
t = Tokenizer()
seps = t.tokenize(text)

perfume_list = []
tags = ["Substantiv","Verb", "Adverb", "Adjektiv", "形容Verb"]

for _ in seps:
    #Wortextraktion
    if _.base_form == '*':
        word = _.surface
    else:
        word = _.base_form

    #Extraktion von Teilwörtern
    ps = _.part_of_speech
    word_class = ps.split(',')[0]

    #Extrahieren Sie nur bestimmte Teilwörter
    if word_class in tags:
        perfume_list.append(word)

print(perfume_list)

Nagisa Dies ist ein relativ neues Werkzeug. Einfach zu bauende Umgebung wie Janome pip install nagisa Die Installation ist abgeschlossen mit. Diesmal sind es Texte, daher kann ich sie nicht verwenden, aber es scheint, dass ich robuste Analysen für Gesichtsbuchstaben und URLs durchführen kann. Es ist einfach zu extrahieren, da es eine Filtermethode für die Ausgabe von Wörtern nach Teilen gibt.

nagisa_.py


import nagisa

#Textdatei lesen
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')

#Morphologische Analyse / Wortextraktion durch Angabe von Teilwörtern
tags = ["Substantiv","Verb", "Adverb", "Adjektiv", "形容Verb"]
perfume_list = nagisa.extract(text, extract_postags=tags).words

print(perfume_list)

Ergebnis

Mecab und Janome, die dasselbe Wörterbuch verwenden, lieferten ähnliche Ergebnisse.

abschließend

Pa Pa Ich bin sicher, du liebst dich heute, ist es nicht eine Disco-Disco? Es gibt viele Songs, die die Songtitel wiederholen, so dass sich auch der Einfluss widerspiegelt!

Die Anzahl der Text Mining-Tools ist reichlich vorhanden und einfach zu verwenden, und ich bin froh, diese Art der Visualisierung problemlos durchführen zu können. Warum versuchst du es nicht mit deinem Lieblingskünstler?


Übrigens, in estie bin ich gerade dabei, indem ich Bürodaten visualisiere Wir bieten eine Vielzahl von Immobilien x Technologie Dienstleistungen. Wenn Sie Ihr Büro verlegen möchten, verwenden Sie bitte estie! Wir bieten auch eine Immobiliendatenplattform estie pro.

Außerdem sucht estie einen Webingenieur Wantedly Bitte besuchen Sie uns im Büro!

Referenzseite

Recommended Posts

Da es der 20. Jahrestag der Gründung ist, habe ich versucht, die Texte von Parfüm mit Word Cloud zu visualisieren
Ich habe versucht, die Texte von Hinatazaka 46 zu vektorisieren!
[Python] Ich habe versucht, die Texte von Arashi mit WordCloud zu visualisieren und herauszufinden, was ich den Fans in 20 Jahren Ausbildung vermitteln wollte
Ich habe versucht, die Tweets von JAWS DAYS 2017 mit Python + ELK einfach zu visualisieren
Ich habe versucht, die Eigenschaften der neuen Informationen über mit dem Corona-Virus infizierte Personen mit Wordcloud zu visualisieren
Ich habe versucht, die Laufdaten des Rennspiels (Assetto Corsa) mit Plotly zu visualisieren
Beim 15. Offline-Echtzeitversuch habe ich versucht, das Problem des Schreibens mit Python zu lösen
Ich habe versucht, die Entropie des Bildes mit Python zu finden
[Python] Ich habe versucht, die folgende Beziehung von Twitter zu visualisieren
Ich habe versucht, die Texte von GReeeen zu visualisieren, die ich in meiner Jugend verrückt gehört habe, aber nicht mehr gehört habe.
[Flask & Bootstrap] Visualisiere den Inhalt von Texten mit Word Cloud ~ Lyrics Word Cloud ~
Ich habe versucht, die Punktgruppendaten-DB der Präfektur Shizuoka mit Vue + Leaflet anzuzeigen
Ich habe versucht, den Stromverbrauch meines Hauses mit Nature Remo E lite zu visualisieren
Da die Aktie aufgrund des Einflusses des neuen Corona-Virus eingebrochen ist, habe ich versucht, die Performance meines Investment Trusts mit Python zu visualisieren.
Ich habe versucht, die Bewässerung des Pflanzgefäßes mit Raspberry Pi zu automatisieren
Ich habe versucht zusammenzufassen, was mit Qiita mit Word Cloud ausgegeben wurde
Visualisieren Sie die Häufigkeit von Wortvorkommen in Sätzen mit Word Cloud. [Python]
Ich habe versucht, die Effizienz der täglichen Arbeit mit Python zu verbessern
Ich habe versucht, den allgemeinen Zustand der VTuber-Kanalbetrachter zu visualisieren
[Python] Ich habe versucht, das Preisgeld von "ONE PIECE" über 100 Millionen Zeichen mit matplotlib zu visualisieren.
Ich versuchte das Weckwort zu erkennen
[Python] Ich habe versucht, die Nacht der Galaxienbahn mit WordCloud zu visualisieren!
Ich möchte meine Gefühle mit den Texten von Mr. Children ausdrücken
Ich habe versucht, die Bewegungen von Wiire-Playern automatisch mit Software zu extrahieren
Ich habe versucht, die Negativität von Nono Morikubo zu analysieren. [Vergleiche mit Posipa]
Ich habe versucht, die Standardrolle neuer Mitarbeiter mit Python zu optimieren
Ich habe versucht, die Filminformationen der TMDb-API mit Python abzurufen
Ich habe versucht, alle Entscheidungsbäume des zufälligen Waldes mit SVG zu visualisieren
Ich habe versucht, das Verhalten des neuen Koronavirus mit dem SEIR-Modell vorherzusagen.
Ich habe Web Scraping versucht, um die Texte zu analysieren.
Ich habe versucht, die Daten mit Zwietracht zu speichern
Als ich versuchte, das Root-Passwort mit ansible zu ändern, konnte ich nicht darauf zugreifen.
Ich habe versucht, die Trapezform des Bildes zu korrigieren
Ich habe versucht, den Urknall-Satz zu verifizieren [Kommt er zurück?]
Ich habe die Größenänderung von TensorFlow nicht verstanden und sie daher visuell zusammengefasst.
Die Geschichte von soracom_exporter (Ich habe versucht, SORACOM Air mit Prometheus zu überwachen)
Ich wollte die Anzahl der Zeilen in mehreren Dateien wissen und versuchte, sie mit einem Befehl abzurufen
Ich habe versucht, ein Modell mit dem Beispiel von Amazon SageMaker Autopilot zu erstellen
Ich habe versucht, die Literatur des neuen Corona-Virus mit Python automatisch an LINE zu senden
Ich habe versucht, mit dem Seq2Seq-Modell von TensorFlow so etwas wie einen Chatbot zu erstellen
Python-Übung 100 Schläge Ich habe versucht, den Entscheidungsbaum von Kapitel 5 mit graphviz zu visualisieren
Ich habe versucht, das Artikel-Update des Livedoor-Blogs mit Python und Selen zu automatisieren.
[SLAYER] Ich habe versucht, die Stahlseele zu bestätigen, indem ich die Texte von Slash Metal [Word Cloud] visualisiert habe.
[Erste Datenwissenschaft ⑥] Ich habe versucht, den Marktpreis von Restaurants in Tokio zu visualisieren
Ich habe versucht, es einfach zu machen, die Einstellung des authentifizierten Proxys auf Jupyter zu ändern
Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen
Ich habe versucht, die Sündenfunktion mit Chainer zu trainieren
Ich habe versucht, Funktionen mit SIFT von OpenCV zu extrahieren
Da der memory_profiler von Python schwer ist, habe ich ihn gemessen
Ich habe versucht, die Grundform von GPLVM zusammenzufassen
Ich habe versucht, eine CSV-Datei mit Python zu berühren
Ich habe versucht, Soma Cube mit Python zu lösen
Ich habe versucht, eine ML-Pipeline mit Cloud Composer zu erstellen
Versuchen Sie, den Inhalt von Word mit Golang zu erhalten
Ich habe versucht, den negativen Teil von Meros zu löschen
Ich habe versucht, das Problem mit Python Vol.1 zu lösen
Ich habe versucht, die Stimmen der Sprecher zu klassifizieren
Ich habe versucht, die String-Operationen von Python zusammenzufassen