Fordern Sie Text Mining mit Python heraus. (Für Python3-Serie) Folgen Sie den unteren Schritten.
① Morphologische Analyse (dieser Artikel) ② Visualisieren Sie mit Word Cloud (nächstes Mal)
Morphologische Analyse erforderlich, um japanische Sätze in Wörter zu unterteilen. Als bekanntes und leicht verständliches Beispiel "Von den Oberschenkeln und Oberschenkeln" Zu "Sumomo, Momo, Momo, Uchi" Was teilt sich in.
Im Gegensatz zu Englisch hat Japanisch keine klaren Wortumbrüche und es ist sehr schwierig, Sätze in Wörter zu unterteilen. Daher ist es nicht realistisch, mit Ihrem eigenen Code zu verarbeiten.
Daher verwenden wir eine Open Source-Bibliothek namens "MeCab". (Wahrscheinlich die wichtigste morphologische Analyse Japans. Sie scheint "Mekabu" zu lauten.)
So stellen Sie MeCab in Python zur Verfügung ・ Installation des MeCab-Hauptgeräts ・ Installation des Wörterbuchs · Installation der Python-Bindung Ist notwendig.
Da das Binärpaket für Windows jedoch ein Wörterbuch enthält, muss das Wörterbuch nicht installiert werden. Hier wird das Verfahren unter der Annahme beschrieben, dass es unter Windows installiert wird.
Zunächst von der Download-Site, die auf der offiziellen Site aufgeführt ist. ・ Mecab-0.996.exe ・ Mecab-Python-0.996.tar.gz herunterladen.
Starten Sie anschließend mecab-0.996.exe und installieren Sie das Hauptgerät. Wählen Sie unterwegs den Zeichencode des Wörterbuchs aus, wählen Sie jedoch das Standard-Shift-JIS. (Ich mache mir ein wenig Sorgen, wenn ich UTF-8 nicht verwenden muss ...)
Sie sollten an dieser Stelle in der Lage sein, den Befehl mecab zu verwenden, aber er scheint nicht in Ihrem PFAD enthalten zu sein. Fügen Sie den PF des Installationsverzeichnisses manuell zu Ihrem PATH hinzu.
Versuchen Sie es mit Mecab in der Befehlszeile. Wie immer "aus den Oberschenkeln und Oberschenkeln".
>mecab↓
Von den Oberschenkeln und Oberschenkeln ↓
Sumomo Substantiv,Allgemeines,*,*,*,*,Sumomo,Sumomo,Sumomo
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Davon Nomenklatur,Nicht unabhängig,Anwalt möglich,*,*,*,Zuhause,Uchi,Uchi
EOS
Als nächstes entpacken Sie mecab-python-0.996.tar.gz in ein geeignetes Verzeichnis. Wechseln Sie in das entpackte Verzeichnis und führen Sie build and install gemäß der README-Datei aus. Unten ist das Ergebnis der Ausführung.
>python setup.py build
'mecab-config'Ist ein interner oder externer Befehl,
Wird nicht als funktionsfähiges Programm oder Batchdatei erkannt.
Traceback (most recent call last):
File "setup.py", line 13, in <module>
version = cmd1("mecab-config --version"),
File "setup.py", line 7, in cmd1
return os.popen(str).readlines()[0][:-1]
IndexError: list index out of range
Plötzlich stolpern über Build. Es scheint, dass es in setup.py keinen Befehl namens mecab-config gibt. Ich habe einen PFAD, aber ich kann keine ausführbare Datei finden, die so aussieht, wenn ich unter bin nachschaue.
Googeln scheint es ziemlich nervig zu sein, Python-Bindungen unter Windows zu platzieren. Sie können Ihr Bestes geben, werden jedoch unterbrochen, da der Zweck darin besteht, Text Mining durchzuführen und MeCab nicht unter Windows auszuführen. Ich habe beschlossen, es in eine andere Linux-Umgebung zu stellen.
Referenzseite
Erstellen einer Umgebung, die MeCab mit R und Python verwendet (Windows, Mac)
Recommended Posts