[PYTHON] Führen Sie eine morphologische Analyse in der von GCE gestarteten maschinellen Lernumgebung durch

Was du machen willst

In der von GCE gestarteten maschinellen Lernumgebung (Ubuntu 16.04 LTS) habe ich zuerst eine morphologische Analysesoftware installiert, um die Verarbeitung natürlicher Sprache durchzuführen. Die Installation hat jedoch viel Zeit in Anspruch genommen, daher werde ich es als Memorandum belassen.

Installierte Softwarebibliotheken

Kann nur mit pip install installiert werden, janome wird weggelassen

Installieren Sie Mecab

Installieren Sie Mecab und Wörterbuch (UTF-8-Version)

sudo apt-get install mecab mecab-ipadic-utf8

Wenn Sie diese nicht einschließen, wird mecab-python nicht ordnungsgemäß installiert

sudo apt-get install libmecab-dev sudo apt-get install build-essential

Installieren Sie abschließend die Bibliothek, um Mecab von pthon3.x aus aufzurufen

pip install mecab-python3

Installation von JUMAN ++

 Ich habe einige notwendige Pakete und kann sie nicht richtig installieren, JUMAN ++
 Ich habe gehört, dass die Fähigkeit zur morphologischen Analyse mehr ist als Mecab, deshalb wollte ich sie unbedingt installieren, und ich habe verschiedene Dinge überprüft und es hat mit dem folgenden Verfahren funktioniert

So verwenden Sie zuerst JUMAN ++

Installieren Sie die erforderlichen Pakete Es dauert eine ganze Weile

sudo apt install checkinstall auto-apt ccache sudo auto-apt update sudo apt install google-perftools libgoogle-perftools-dev libboost-dev

Laden Sie JUMAN ++ herunter und entpacken Sie es

wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz tar xJvf jumanpp-1.01.tar.xz

Dann installieren Sie JUMAN ++

auto-apt run ./configure CC="ccache gcc" CFLAGS="-O3" CXX="ccache g++" CXXFLAGS="-O3" make sudo checkinstall

Wenn die Version nun wie folgt veröffentlicht wird, ist die Installation von JUMAN ++ erfolgreich abgeschlossen

jumanpp -v

JUMAN++ 1.01

So verwenden Sie JUMAN ++ aus Python

 Bei der Installation wird weiterhin JUMAN ++ mit Python verwendet

Installieren Sie in der Reihenfolge JUMAN → KNP → PyKNP unter Bezugnahme auf Verwenden von JUMAN ++ aus Python.

Ist es jedoch nicht nur für die oben genannten Zwecke in der Python-Bibliothek registriert? Es sieht so aus, also führen Sie zum Abschluss Folgendes aus

pip install ./pyknp-0.3

Versuchen Sie es mit einer morphologischen Analyse

 Versuchen Sie in der morphologischen Analyse, eine "Ausländerregierung" zu implementieren, die in Mecab, JUMAN ++, Janome häufig als Material verwendet wird

Für Mecab

import MeCab
mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("Ausländerregierung"))
Ausländische Gaikoku Ausländische Nomenklatur-Allgemeines
Ginseng-Karotten-Karotten-Nomenklatur-Allgemeines
Administration Seiken Administration Nominal-Allgemeines
EOS

Für JUMAN ++

from pyknp import Jumanpp
jumanpp = Jumanpp()
r=jumanpp.analysis("Ausländerregierung")
for m in r.mrph_list():
    print(m.midasi)
Ausland
Mann
Beteiligung
Richtig

Für Janome

from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize('Ausländerregierung')
for token in tokens:
    print(token)
Ausländische Nomenklatur,Allgemeines,*,*,*,*,Ausland,Gaikoku,Gaikoku
Ginseng Substantiv,Allgemeines,*,*,*,*,Karotte,Karotte,Karotte
Verwaltungsnomenklatur,Allgemeines,*,*,*,*,Verwaltung,Seiken,Seiken

Immerhin ist JUMAN ++ gut.

Referenzierte Site

Text Mining mit Python ① Morphologische Analyse (re: Linux-Version)

[So installieren Sie JUMAN ++ unter Ubuntu 16.04 LTS] (http://qiita.com/SUZUKI_Masaya/items/29c81d037cdf7d37b900)

[So installieren Sie Software unter Ubuntu mit Auto-Apt, Checkinstall, Ccache] (http://qiita.com/SUZUKI_Masaya/items/bd03f39e20a1a8f7f4f6#%E5%BF%85%E8%A6%81%E3%81%AA%E3%83%91%E3%83%83%E3%82%B1%E3%83%BC%E3%82%B8%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB)

Verwenden von JUMAN ++ aus Python

Recommended Posts

Führen Sie eine morphologische Analyse in der von GCE gestarteten maschinellen Lernumgebung durch
Vorverarbeitung beim maschinellen Lernen 1 Datenanalyseprozess
Unterschied in den morphologischen Analyseergebnissen nach Mecab-Wörterbuch
Analyse der gemeinsamen Raumnutzung durch maschinelles Lernen
Geschichte rund um die Datenanalyse durch maschinelles Lernen
Ich habe versucht, die Veränderung der Schneemenge für 2 Jahre durch maschinelles Lernen vorherzusagen
Erstellen Sie mit Python eine interaktive Umgebung für maschinelles Lernen
Versuchen Sie, eine Blackjack-Strategie zu entwickeln, indem Sie das Lernen stärken (② Registrieren Sie die Umgebung im Fitnessstudio).
Über das Testen bei der Implementierung von Modellen für maschinelles Lernen
[Maschinelles Lernen] Schreiben Sie die Methode des nächsten Nachbarn in Python selbst und erkennen Sie handgeschriebene Zahlen.
Das Ergebnis des maschinellen Lernens von Java-Ingenieuren mit Python www
Umfrage zum Einsatz von maschinellem Lernen in realen Diensten
Vorhersage des Vorhandenseins oder Nichtvorhandenseins von Untreue durch maschinelles Lernen
Starten einer maschinellen Lernumgebung mit Google Compute Engine (GCE)
Python-Lernnotiz für maschinelles Lernen von Chainer Kapitel 7 Regressionsanalyse
Coursera-Herausforderungen für maschinelles Lernen in Python: ex7-2 (Primäranalyse)
Visualisieren Sie die Korrelationsmatrix durch Hauptkomponentenanalyse mit Python
Maschinelles Lernen in Delemas (Praxis)
Erstellen Sie eine maschinelle Lernumgebung
Wird in EDA für maschinelles Lernen verwendet
4 [/] Vier Arithmetik durch maschinelles Lernen
Wie wäre es mit Anaconda zum Erstellen einer maschinellen Lernumgebung mit Python?
[In der Abbildung verstanden] Verwaltung der virtuellen Python-Umgebung durch Pipenv
Morphologische Analyse von Sätzen mit aktuellen Wörtern in der Windows10 64-Bit-Umgebung
Lernen Sie maschinelles Lernen jederzeit und überall in der bedarfsgesteuerten Jupyter Notebook-Umgebung
Menschen merken sich gelerntes Wissen im Gehirn, wie man gelerntes Wissen im maschinellen Lernen auswendig lernt
Bereiten Sie eine Hochgeschwindigkeitsanalyseumgebung vor, indem Sie in der Datenanalyseumgebung auf MySQL klicken
Führen Sie Polyglot auf Raspberry Pi aus, um eine morphologische Analyse auf Englisch durchzuführen
Zusammenfassung des maschinellen Lernens von Python-Anfängern
Algorithmus für maschinelles Lernen (multiple Regressionsanalyse)
Algorithmus für maschinelles Lernen (Einzelregressionsanalyse)
Klassifikation und Regression beim maschinellen Lernen
Maschinelles Lernen in Delemas (Datenerfassung)
Python: Vorverarbeitung beim maschinellen Lernen: Übersicht
Vorverarbeitung beim maschinellen Lernen 2 Datenerfassung
Random Seed Research im maschinellen Lernen
Maschinelles Lernen: Überwacht - Lineare Diskriminanzanalyse
Vorverarbeitung beim maschinellen Lernen 4 Datenkonvertierung
Ein-Klick-Datenvorhersage für das Feld, realisiert durch vollautomatisches maschinelles Lernen
Ich habe eine fraktale Dimensionsanalyse mit der Box-Count-Methode in 3 Dimensionen versucht
Python-Lernnotiz für maschinelles Lernen von Chainer bis zum Ende von Kapitel 2
Bestimmen Sie die Authentizität von veröffentlichten Artikeln durch maschinelles Lernen (Google Prediction API).