Ich möchte einige japanische Vorverarbeitungen mit der Verarbeitung natürlicher Sprache zusammenfassen. (Geplant, jederzeit aktualisiert zu werden)
>>> import unicodedata
>>>
>>> text =u '1994'
>>> print unicodedata.normalize(‘NFKC’, text)
1994
Ich denke, die meisten Leute analysieren Japanisch mit Mecab.
Und ich denke, dass es viele Leute gibt, die neologd als Wörterbuch verwenden, aber es gibt eine, die ich mit diesem Wörterbuch gefunden habe.
$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
Wolke
Wolke Nomen,Proprietäre Nomenklatur,Allgemeines,*,*,*,Wolke~,Kumonomukouyakusokunobasho,Kumonomukouyakusokunobasho
EOS
Kumonomukouyakusokunobasho ...? Als ich es nachgeschlagen habe, war es ein Anime-Film von Makoto Shinkai.
Recommended Posts