Zeigt, wie die morphologische Analysesoftware MeCab, ihr Wörterbuch und die Bibliothek (Bindung) für Python aus dem Quellcode als ** allgemeiner Benutzer ** auf einem Linux-Computer ohne Administratorrechte erstellt und installiert werden. Die MeCab-Version ist v0.996, die Python-Version ist 2.7 und das vom Ersteller von MeCab empfohlene IPA-Wörterbuch wird als Wörterbuch verwendet.
Diejenigen, die mit den minimalen Linux-Befehlen umgehen können.
Der Autor haftet nicht für Schäden, die durch Bezugnahme auf diesen Artikel entstehen. (Alle Verantwortung liegt beim Leser.)
Darüber hinaus übernehmen wir keine Garantie für die Gültigkeit des Inhalts des Artikels. Wenn es Punkte gibt, die korrigiert werden müssen, teilen Sie uns dies bitte in den Kommentaren mit.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Laden Sie über den obigen Link insgesamt drei Dateien herunter, die in der folgenden Liste aufgeführt sind. Speichern Sie die heruntergeladene Datei außerdem in einem beliebigen Verzeichnis (hier ~ / src /
) direkt unter Ihrem Home-Verzeichnis.
Die dritte Datei ist optional und muss nicht unbedingt installiert werden. Die in diesem Buch beschriebenen Verarbeitungsprogramme für natürliche Sprachen verwenden jedoch häufig MeCab von Python und werden möglicherweise zum Ausführen benötigt. Es gibt. (Obwohl Bibliotheken für andere Sprachen wie Ruby und Java zusätzlich zu Python verfügbar sind, werden sie hier weggelassen.)
Gehen Sie als Nächstes zu "~ / src /" und entpacken und entpacken Sie die zuvor heruntergeladene .tar.gz-Datei.
$ cd ~/src
$ tar zxfv mecab-0.996.tar.gz
$ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxfv mecab-python-0.996.tar.gz
Bei der Installation mit Root-Rechten wird MeCab standardmäßig unter "/ usr / local /" installiert. Die Installation schlägt jedoch mit allgemeinen Benutzerrechten fehl.
In solchen Fällen können Sie es unter dem gewünschten Verzeichnis "{local}" installieren, indem Sie dem Skript ".configure" die Option "--prefix = {local}" geben. Bitte lesen Sie den entsprechenden Teil von {local}
. In meinem Fall habe ich beispielsweise beschlossen, ein Verzeichnis mit dem Namen "local" in meinem Home-Verzeichnis zu erstellen und MeCab usw. unter diesem Verzeichnis zu installieren. (Eine einfachere Möglichkeit, das Ausgangsverzeichnis anzugeben, ist ebenfalls üblich, aber dieses Mal habe ich beschlossen, es unter "~ / local" zu platzieren, um zu verhindern, dass die Verzeichnisstruktur kompliziert wird.)
Zu diesem Zeitpunkt muss ** absoluter Pfad ** für {local}
angegeben werden. Ein absoluter Pfad ist ein Pfad aus dem Stammverzeichnis, z. B. "/ home / {Benutzername} / local".
Führen Sie insbesondere den folgenden Befehl aus. Der von MeCab verwendete Zeichencode wird in UTF-8 mit der Option "--with-charset" angegeben.
$ mkdir {local}
$ cd ~/src/mecab-0.996
$ ./configure --prefix={local} --with-charset=utf8
$ make
$ make install
Wenn keine Fehler vorliegen, ist die Installation von MeCab selbst abgeschlossen.
Installieren Sie dann das IPA-Wörterbuch. ** Wenn Sie MeCab ohne registriertes Wörterbuch verwenden, tritt ein Fehler auf **. Stellen Sie daher sicher, dass Sie dies tun.
Führen Sie den folgenden Befehl aus.
$ cd ~/src/mecab-ipadic-2.7.0-20070801
$ ./configure --with-mecab-config={local}/bin/mecab-config --prefix={local} --with-charset=utf8
$ make
$ make install
Legen Sie als Nächstes die Umgebungsvariablen fest. Das Folgende ist ein Einstellungsbeispiel in der C-Shell. Ändern Sie es entsprechend den vorhandenen Einstellungen.
~/.cshrc
setenv PATH {local}/bin:$PATH
Schließen Sie nach dem Speichern der Datei den Texteditor, damit die Änderungen an ".cshrc" wirksam werden.
$ source ~/.cshrc
Damit ist die Installation des gesamten MeCab abgeschlossen. Führen Sie den folgenden Befehl aus, um festzustellen, ob es funktioniert:
$ mecab
Hallo, heute ist schönes Wetter.
Dann werden die folgenden morphologischen Analyseergebnisse erhalten.
Hallo Interjektion,*,*,*,*,*,Hallo,Hallo,Hallo
, Symbol,Lesepunkt,*,*,*,*,、,、,、
Nomen heute,Anwalt möglich,*,*,*,*,heute,heute,Kyo
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Gutes Adjektiv,Unabhängigkeit,*,*,Adjektiv gut,Grundform,Gut,gut,gut
Wetter Nomen,Allgemeines,*,*,*,*,Wetter,Wetter,Wetter
Ist ein Hilfsverb,*,*,*,Besonderer Tod,Grundform,ist,Tod,Tod
Ne Assistent,Letzte Hilfe,*,*,*,*,Hallo,Ne,Ne
.. Symbol,Phrase,*,*,*,*,。,。,。
EOS
Wenn Sie die Ausgabe sehen, drücken Sie Strg + c
, um den Befehl zu beenden. Wenn die Ausgabe verstümmelt ist, wurde "--with-charset = utf8" möglicherweise nicht korrekt angegeben, wenn "./configure" im Wörterbuch ausgeführt wurde, oder der Zeichencode der Shell ist nicht UTF-8. Es gibt. Im ersteren Fall installieren Sie das Wörterbuch erneut.
Verschieben Sie zunächst das Verzeichnis.
cd ~/src/mecab-python-0.996
Schreiben Sie dann "setup.py" in einen beliebigen Texteditor. ** Schreiben Sie alle mecab-config
in den Zeilen 13,18,19,20 in {local} / bin / mecab-config
um. ** ** **
Führen Sie dann das Setup-Python-Skript aus.
$ python setup.py build
$ python setup.py install --prefix={local}
Legen Sie als Nächstes die Umgebungsvariablen fest. Fügen Sie für die C-Shell die folgenden zwei Zeilen zu ~ / .cshrc
hinzu.
~/.cshrc
setenv LD_LIBRARY_PATH {local}/lib:${LD_LIBRARY_PATH}
setenv PYTHONPATH {local}/lib/python2.7/site-packages:${PYTHONPATH}
Wenn zu diesem Zeitpunkt ein Fehler wie "PYTHONPATH: Undefinierte Variable" auftritt, löschen Sie das Teil ": $ {PYTHONPATH}" und versuchen Sie es erneut und ändern Sie es entsprechend der vorhandenen Umgebung. * (Bitte in den Kommentaren darauf hinweisen, ob es einen besseren Weg gibt) *
Speichern Sie die Änderungen in der Datei, schließen Sie den Texteditor und spiegeln Sie die Änderungen in ".cshrc" wider.
$ source ~/.cshrc
Jetzt ist der Pfad zur Bibliothek vorhanden und MeCab ist in Python verfügbar. Führen Sie zur Überprüfung ~ / src / mecab-python-0.996 / test.py
aus.
$ cd ~/src/mecab-python-0.996/
$ python test.py
0.996
Taro Substantiv,Eigenname,Name der Person,Name,*,*,Taro,Taro,Talg
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Dieser Zusatz,*,*,*,*,*,Dies,Dies,Dies
Diese Nomenklatur,Allgemeines,*,*,*,*,Buch,Hong,Hong
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Zwei Nomenklaturen,Nummer,*,*,*,*,zwei,D.,D.
Ro Substantiv,Allgemeines,*,*,*,*,Ro,Rowe,Niedrig
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Schau Verb,Unabhängigkeit,*,*,Ein Schritt,Kontinuierlicher Typ,sehen,Mi.,Mi.
Hilfsverb,*,*,*,Besondere,Grundform,Ta,Ta,Ta
Weibliche Nomenklatur,Allgemeines,*,*,*,*,Weiblich,Josei,Josei
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,D.,D.
Verb übergeben,Unabhängigkeit,*,*,Godan / Sa Linie,Kontinuierlicher Typ,aushändigen,ich,ich
Hilfsverb,*,*,*,Besondere,Grundform,Ta,Ta,Ta
.. Symbol,Phrase,*,*,*,*,。,。,。
EOS
BOS/EOS,*,*,*,*,*,*,*,*
Taro Substantiv,Eigenname,Name der Person,Name,*,*,Taro,Taro,Talg
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Dieser Zusatz,*,*,*,*,*,Dies,Dies,Dies
Diese Nomenklatur,Allgemeines,*,*,*,*,Buch,Hong,Hong
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Zwei Nomenklaturen,Nummer,*,*,*,*,zwei,D.,D.
Ro Substantiv,Allgemeines,*,*,*,*,Ro,Rowe,Niedrig
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Schau Verb,Unabhängigkeit,*,*,Ein Schritt,Kontinuierlicher Typ,sehen,Mi.,Mi.
Hilfsverb,*,*,*,Besondere,Grundform,Ta,Ta,Ta
Weibliche Nomenklatur,Allgemeines,*,*,*,*,Weiblich,Josei,Josei
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,D.,D.
Verb übergeben,Unabhängigkeit,*,*,Godan / Sa Linie,Kontinuierlicher Typ,aushändigen,ich,ich
Hilfsverb,*,*,*,Besondere,Grundform,Ta,Ta,Ta
.. Symbol,Phrase,*,*,*,*,。,。,。
BOS/EOS,*,*,*,*,*,*,*,*
EOS
EOS
filename: {local}/lib/mecab/dic/ipadic/sys.dic
charset: utf8
size: 392126
type: 0
lsize: 1316
rsize: 1316
version: 102
Wenn Sie die obige Ausgabe erhalten, ist die Installation abgeschlossen.