Text Mining mit Python ① Morphologische Analyse

Fordern Sie Text Mining mit Python heraus. (Für Python3-Serie) Folgen Sie den unteren Schritten.

① Morphologische Analyse (dieser Artikel) ② Visualisieren Sie mit Word Cloud (nächstes Mal)



Morphologische Analysebibliothek

Morphologische Analyse erforderlich, um japanische Sätze in Wörter zu unterteilen. Als bekanntes und leicht verständliches Beispiel "Von den Oberschenkeln und Oberschenkeln" Zu "Sumomo, Momo, Momo, Uchi" Was teilt sich in.

Im Gegensatz zu Englisch hat Japanisch keine klaren Wortumbrüche und es ist sehr schwierig, Sätze in Wörter zu unterteilen. Daher ist es nicht realistisch, mit Ihrem eigenen Code zu verarbeiten.

Daher verwenden wir eine Open Source-Bibliothek namens "MeCab". (Wahrscheinlich die wichtigste morphologische Analyse Japans. Sie scheint "Mekabu" zu lauten.)

Installieren Sie MeCab

So stellen Sie MeCab in Python zur Verfügung ・ Installation des MeCab-Hauptgeräts ・ Installation des Wörterbuchs · Installation der Python-Bindung Ist notwendig.

Da das Binärpaket für Windows jedoch ein Wörterbuch enthält, muss das Wörterbuch nicht installiert werden. Hier wird das Verfahren unter der Annahme beschrieben, dass es unter Windows installiert wird.

Zunächst von der Download-Site, die auf der offiziellen Site aufgeführt ist. ・ Mecab-0.996.exe ・ Mecab-Python-0.996.tar.gz herunterladen.

Starten Sie anschließend mecab-0.996.exe und installieren Sie das Hauptgerät. Wählen Sie unterwegs den Zeichencode des Wörterbuchs aus, wählen Sie jedoch das Standard-Shift-JIS. (Ich mache mir ein wenig Sorgen, wenn ich UTF-8 nicht verwenden muss ...)

Sie sollten an dieser Stelle in der Lage sein, den Befehl mecab zu verwenden, aber er scheint nicht in Ihrem PFAD enthalten zu sein. Fügen Sie den PF des Installationsverzeichnisses manuell zu Ihrem PATH hinzu.

Versuchen Sie es mit Mecab in der Befehlszeile. Wie immer "aus den Oberschenkeln und Oberschenkeln".

>mecab↓
Von den Oberschenkeln und Oberschenkeln ↓
Sumomo Substantiv,Allgemeines,*,*,*,*,Sumomo,Sumomo,Sumomo
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Auch Assistent,Hilfe,*,*,*,*,Ebenfalls,Mo.,Mo.
Oberschenkel Nomen,Allgemeines,*,*,*,*,Pfirsiche,Pfirsich,Pfirsich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Davon Nomenklatur,Nicht unabhängig,Anwalt möglich,*,*,*,Zuhause,Uchi,Uchi
EOS

Installieren Sie MeCab Python-Bindungen

Als nächstes entpacken Sie mecab-python-0.996.tar.gz in ein geeignetes Verzeichnis. Wechseln Sie in das entpackte Verzeichnis und führen Sie build and install gemäß der README-Datei aus. Unten ist das Ergebnis der Ausführung.

>python setup.py build
'mecab-config'Ist ein interner oder externer Befehl,
Wird nicht als funktionsfähiges Programm oder Batchdatei erkannt.
Traceback (most recent call last):
  File "setup.py", line 13, in <module>
    version = cmd1("mecab-config --version"),
  File "setup.py", line 7, in cmd1
    return os.popen(str).readlines()[0][:-1]
IndexError: list index out of range

Plötzlich stolpern über Build. Es scheint, dass es in setup.py keinen Befehl namens mecab-config gibt. Ich habe einen PFAD, aber ich kann keine ausführbare Datei finden, die so aussieht, wenn ich unter bin nachschaue.

Googeln scheint es ziemlich nervig zu sein, Python-Bindungen unter Windows zu platzieren. Sie können Ihr Bestes geben, werden jedoch unterbrochen, da der Zweck darin besteht, Text Mining durchzuführen und MeCab nicht unter Windows auszuführen. Ich habe beschlossen, es in eine andere Linux-Umgebung zu stellen.


Referenzseite
Erstellen einer Umgebung, die MeCab mit R und Python verwendet (Windows, Mac)

Recommended Posts

Text Mining mit Python ① Morphologische Analyse
Text Mining mit Python ① Morphologische Analyse (re: Linux-Version)
[Python] Morphologische Analyse mit MeCab
Python: Japanischer Text: Morphologische Analyse
Japanische morphologische Analyse mit Python
Text Mining mit Python ② Visualisierung mit Word Cloud
Python: Vereinfachte morphologische Analyse mit regulären Ausdrücken
Datenanalyse mit Python 2
Sprachanalyse mit Python
Text Mining mit Python-Scraping-
Sprachanalyse mit Python
Datenanalyse mit Python
[Analyse des gemeinsamen Auftretens] Einfache Analyse des gemeinsamen Auftretens mit Python! [Python]
Planare Skelettanalyse mit Python
Muskel-Ruck-Analyse mit Python
[PowerShell] Morphologische Analyse mit SudachiPy
Text Emotionsanalyse mit ML-Ask
Sammeln von Informationen von Twitter mit Python (morphologische Analyse mit MeCab)
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
GOTO in Python mit erhabenem Text 3
Impedanzanalyse (EIS) mit Python [impedance.py]
Textextraktion mit AWS Textract (Python3.6)
Aktivieren Sie Python raw_input mit Sublime Text 3
Python: Negative / Positive Analyse: Textanalyse-Anwendung
Sprechen Sie japanischen Text mit OpenJTalk + Python
Ich habe mit Mecab gespielt (morphologische Analyse)!
Datenanalyse beginnend mit Python (Datenvisualisierung 1)
Logistische Regressionsanalyse Selbst erstellt mit Python
Datenanalyse beginnend mit Python (Datenvisualisierung 2)
Morphologische Analyse mit Igo + mecab-ipadic-neologd in Python (mit Ruby-Bonus)
Von der Einführung von JUMAN ++ bis zur morphologischen Analyse von Japanisch mit Python
Englische Spracherkennung mit Python [Rede zu Text]
[In-Database Python Analysis Tutorial mit SQL Server 2017]
Zweidimensionale Analyse des gesättigten und ungesättigten Permeationsflusses mit Python
Maschinelles Lernen mit Python (2) Einfache Regressionsanalyse
Tweet-Analyse mit Python, Mecab und CaboCha
Datenanalyse beginnend mit Python (Datenvorverarbeitung - maschinelles Lernen)
Zweidimensionale instationäre Wärmeleitungsanalyse mit Python
Versuchen Sie, Ihr Tagebuch mit Python zu durchsuchen
Lesen von Zeichen in Bildern mit Python OCR
FizzBuzz in Python3
Scraping mit Python
Von der Vorbereitung der morphologischen Analyse mit Python unter Verwendung von Polyglot bis zur Teilwortmarkierung
Statistik mit Python
Scraping mit Python
Datenanalyse Python
Twilio mit Python
In Python integrieren
Spielen Sie mit 2016-Python
AES256 mit Python
Getestet mit Python
Python beginnt mit ()
mit Syntax (Python)
[Lass uns mit Python spielen] Ziel ist die automatische Satzgenerierung ~ Morphologische Analyse durchführen ~
Bingo mit Python
Zundokokiyoshi mit Python
Excel mit Python
Mikrocomputer mit Python
Mit Python besetzen