In der von GCE gestarteten maschinellen Lernumgebung (Ubuntu 16.04 LTS) habe ich zuerst eine morphologische Analysesoftware installiert, um die Verarbeitung natürlicher Sprache durchzuführen. Die Installation hat jedoch viel Zeit in Anspruch genommen, daher werde ich es als Memorandum belassen.
Kann nur mit pip install installiert werden, janome wird weggelassen
Installieren Sie Mecab und Wörterbuch (UTF-8-Version)
sudo apt-get install mecab mecab-ipadic-utf8
Wenn Sie diese nicht einschließen, wird mecab-python nicht ordnungsgemäß installiert
sudo apt-get install libmecab-dev sudo apt-get install build-essential
Installieren Sie abschließend die Bibliothek, um Mecab von pthon3.x aus aufzurufen
pip install mecab-python3
Ich habe einige notwendige Pakete und kann sie nicht richtig installieren, JUMAN ++ Ich habe gehört, dass die Fähigkeit zur morphologischen Analyse mehr ist als Mecab, deshalb wollte ich sie unbedingt installieren, und ich habe verschiedene Dinge überprüft und es hat mit dem folgenden Verfahren funktioniert
Installieren Sie die erforderlichen Pakete Es dauert eine ganze Weile
sudo apt install checkinstall auto-apt ccache sudo auto-apt update sudo apt install google-perftools libgoogle-perftools-dev libboost-dev
Laden Sie JUMAN ++ herunter und entpacken Sie es
wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz tar xJvf jumanpp-1.01.tar.xz
Dann installieren Sie JUMAN ++
auto-apt run ./configure CC="ccache gcc" CFLAGS="-O3" CXX="ccache g++" CXXFLAGS="-O3" make sudo checkinstall
Wenn die Version nun wie folgt veröffentlicht wird, ist die Installation von JUMAN ++ erfolgreich abgeschlossen
jumanpp -v
JUMAN++ 1.01
Bei der Installation wird weiterhin JUMAN ++ mit Python verwendet
Installieren Sie in der Reihenfolge JUMAN → KNP → PyKNP unter Bezugnahme auf Verwenden von JUMAN ++ aus Python.
Ist es jedoch nicht nur für die oben genannten Zwecke in der Python-Bibliothek registriert? Es sieht so aus, also führen Sie zum Abschluss Folgendes aus
pip install ./pyknp-0.3
Versuchen Sie in der morphologischen Analyse, eine "Ausländerregierung" zu implementieren, die in Mecab, JUMAN ++, Janome häufig als Material verwendet wird
import MeCab
mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("Ausländerregierung"))
Ausländische Gaikoku Ausländische Nomenklatur-Allgemeines
Ginseng-Karotten-Karotten-Nomenklatur-Allgemeines
Administration Seiken Administration Nominal-Allgemeines
EOS
from pyknp import Jumanpp
jumanpp = Jumanpp()
r=jumanpp.analysis("Ausländerregierung")
for m in r.mrph_list():
print(m.midasi)
Ausland
Mann
Beteiligung
Richtig
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize('Ausländerregierung')
for token in tokens:
print(token)
Ausländische Nomenklatur,Allgemeines,*,*,*,*,Ausland,Gaikoku,Gaikoku
Ginseng Substantiv,Allgemeines,*,*,*,*,Karotte,Karotte,Karotte
Verwaltungsnomenklatur,Allgemeines,*,*,*,*,Verwaltung,Seiken,Seiken
Immerhin ist JUMAN ++ gut.
Text Mining mit Python ① Morphologische Analyse (re: Linux-Version)
[So installieren Sie JUMAN ++ unter Ubuntu 16.04 LTS] (http://qiita.com/SUZUKI_Masaya/items/29c81d037cdf7d37b900)
[So installieren Sie Software unter Ubuntu mit Auto-Apt, Checkinstall, Ccache] (http://qiita.com/SUZUKI_Masaya/items/bd03f39e20a1a8f7f4f6#%E5%BF%85%E8%A6%81%E3%81%AA%E3%83%91%E3%83%83%E3%82%B1%E3%83%BC%E3%82%B8%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB)
Verwenden von JUMAN ++ aus Python
Recommended Posts