In diesem Artikel Installieren Sie mecab mit UTF-8 auf dem gemeinsam genutzten Sakura-Server. Rufen Sie danach Mecab von Python aus auf und versuchen Sie es mit einer morphologischen Analyse. Dem Sakura-Mietserver werden daher keine Root-Rechte gewährt Installieren Sie im Benutzerverzeichnis.
-Die Befehle in der Prozedur werden in bash beschrieben. Wie man zu Bash wechselt Überprüfen Sie die Ergänzung "Bash auf Sakura-Mietserver standardisieren"!
・ Mecab-Körper (Mecab-0,996) ・ Mecab-Wörterbuch ・ Python-Paketverwaltungssystem pip ・ Mecab-Python
(1) Laden Sie den Mecab-Körper von der folgenden Website herunter. http://taku910.github.io/mecab/#download
(2) Entpacken Sie den Mecab-Körper
Entpacken Sie den Body mit dem Befehl tar
tar xvfz ./mecab-0.996.tar.gz
(3) Wechseln Sie in das entpackte Verzeichnis
cd mecab-0.996
(4) Kompilieren und erstellen
Geben Sie den folgenden Befehl ein, der im Benutzerverzeichnis installiert werden soll
./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only
make make install
In meiner Umgebung wurde es am folgenden Speicherort installiert. ~/local/bin/mecab
(5) Überprüfen Sie, ob es installiert ist
mecab -v
Wenn es normal installiert ist, können Sie den obigen Befehl eingeben und es wird "mecab of 0.996" angezeigt.
Ein solches Protokoll wird angezeigt.
(1) Laden Sie das Mecab-Wörterbuch und das IPA-Wörterbuch von den folgenden Websites herunter. http://taku910.github.io/mecab/#download
(2) Entpacken Sie das ipa-Wörterbuch
tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
(3) Wechseln Sie in den Wörterbuchordner cd mecab-ipadic-2.7.0-20070801
(4) Geben Sie den folgenden Befehl ein, der im Benutzerverzeichnis installiert werden soll
Der Zeichencode des Wörterbuchs lautet utf-8.
Der Grund für die Verwendung von utf-8 besteht darin, es im WEB aufzurufen.
./configure --with-charset=utf8
Selbst wenn Sie es hier auf utf-8 setzen, nachdem Sie mecab ausgeführt haben, Der Zeichencode des Ausgabeergebnisses kann EUC bleiben.
In diesem Fall in "mecab-ipadic-2.7.0-20070801" Konvertiert Dateien mit den Erweiterungen "csv" und "def" in UTF-8 und überschreibt sie.
Befehl zum Konvertieren in UTF-8 und Befehl zum Bestätigen
nkf -w --overwrite *.csv nkf -w --overwrite *.def nkf --guess *.*
Referenz Verwendung von Mecab mit dem gemeinsam genutzten Sakura-Server, UTF-8-Wörterbuch http://nymemo.com/sakura/258/
(5) Kompilieren und erstellen Geben Sie den folgenden Befehl ein, der im Benutzerverzeichnis installiert werden soll
make make install
In meiner Umgebung wurde das Wörterbuch am folgenden Speicherort installiert. ~/local/lib/mecab/dic/ipadic
Geben Sie das Wörterbuch wie unten gezeigt an und starten Sie mecab.
mecab -d ~/local/lib/mecab/dic/ipadic
Die Terminaleinstellung ist UTF-8.
Bei Erfolg wird Folgendes angezeigt.
[home@www1635 ~/local/etc]$ mecab -d ~/local/lib/mecab/dic/ipadic Von den Oberschenkeln und Oberschenkeln Sumomo-Nomenklatur, allgemein, *, *, *, *, Sumomo, Sumomo, Sumomo Mo Assistent, Angestellter, *, *, *, *, mo, mo, mo Oberschenkel-Nomenklatur, allgemein, *, *, *, *, Oberschenkel, Pfirsich, Pfirsich Mo Assistent, Angestellter, *, *, *, *, mo, mo, mo Oberschenkel-Nomenklatur, allgemein, *, *, *, *, Oberschenkel, Pfirsich, Pfirsich Hilfswörter, Vereinigung, *, *, *, *, Von welcher Nomenklatur, Nichtunabhängigkeit, befürworten möglich, *, *, *, davon Uchi, Uchi EOS
Der Grund für die Installation von pip ist die Installation von mecab-python mit pip.
easy_install --prefix=~/.local pip
[home@www1635 ~/local/etc]$ pip --version pip 9.0.1 from /home/homedir/.local/lib/python2.7/site-packages/pip-9.0.1-py2.7.egg (python 2.7)
pip install mecab-python --user
Der Grund für --user ist, dass der Sakura-Server keine Root-Rechte hat. Installieren Sie ihn daher im Benutzerverzeichnis.
Schreiben Sie diesen Quellcode.
sample.py
# coding: UTF-8
import MeCab
#Geben Sie den Speicherort des Wörterbuchs an (aus irgendeinem Grund funktioniert es nur, wenn Sie es mit dem vollständigen Pfad angeben).
userdic_path="-d /home/homedir/local/lib/mecab/dic/ipadic"
t = MeCab.Tagger("-Ochasen " + userdic_path)
text = u'Von den Oberschenkeln und Oberschenkeln'
encoded_text = text.encode('utf-8')#
meData = t.parse(encoded_text )
print meData
Bei der Ausführung wird die folgende Anweisung ausgegeben
ein Sumomo Sumomo Nomen-General Momo Momo Assistance-Teilnehmerunterstützung Oberschenkel Pfirsich Nase-General Momo Momo Assistance-Teilnehmerunterstützung Oberschenkel Pfirsich Nase-General Nonos Hilfsunion Uchi Uchi Nomenklatur-Nichtunabhängigkeit-Index möglich EOS
das ist alles! Als nächstes werde ich einen Artikel darüber schreiben, wie das Ausführungsergebnis von MeCab in einem WEB-Browser angezeigt wird.
Standardisieren Sie die Bash auf dem Sakura-Mietserver http://note.sicafe.net/sakuraVPS/sakura_vimInstall.html
Recommended Posts