Ich musste einen japanischen Korpus machen, also werde ich eine Geschichte mit MeCab schreiben.
Eine Open-Source-Engine für morphologische Analysen. Grob gesagt bedeutet morphologische Analyse "Zerlegung in die kleinste Einheit eines Wortes". Auf Englisch sind die kleinsten Einheitswörter wie "Dies ist ein Stift" durch Leerzeichen getrennt, auf Japanisch sind sie jedoch zusammengeklebt, sodass Sie sie analysieren und zerlegen müssen. Wenn Sie das nicht tun, können Sie es nicht tun. Offizielle URL: http://taku910.github.io/mecab/ Lizenz:
https://gist.github.com/YoshihitoAso/9048005
$ sudo apt-get install mecab libmecab-dev mecab-ipadic $ sudo aptitude install mecab-ipadic-utf8 $ sudo apt-get install python-mecab
Vielen Dank. m (__) m Wenn Sie die Prozedur schreiben, ist die erste die Installation des Kerns von MeCab, die zweite die UTF8-Version des IPA-Wörterbuchs und die letzte die von Python aufgerufene Bibliothek. 3 Bestätigung, ob eine Installation möglich war oder nicht Dieses Mal wollte ich eine Notiz schreiben, also habe ich die folgende Beispielquelle erstellt.
Das Ergebnis des Verschiebens ist wie folgt.
Auf der folgenden Website finden Sie eine klare Beschreibung der MeCab-Optionen. Vielen Dank. In meinem Fall wollte ich es nur separat schreiben, also brauchte ich nur "-Owakati", aber ich kann es später verwenden. http://www.mwsoft.jp/programming/munou/mecab_command.html
Recommended Posts