J'ai vérifié comment utiliser Janome, alors j'ai fait une note.
Janome est un analyseur morphologique encapsulé par dictionnaire écrit en Pure Python. Nous visons à être une bibliothèque d'analyse morphologique avec une API simple qui peut être facilement installée sans bibliothèques dépendantes et facilement incorporée dans les applications.
Je pense l'essayer, alors j'ai décidé d'utiliser Janome, qui semble être le plus simple à utiliser avec Python. Comparé à Mecab, il est plus facile à utiliser avec juste pip install. Pour d'autres outils d'analyse morphologique japonais, voir le résumé de ici.
Extrait du site officiel.
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize(u'Des cuisses et des cuisses'):
print(token)
Lorsque le résultat de Tokenizer.tokenize est sorti par impression, il ressemble à ceci.
Est le verbe, non indépendant, \ *, \ *, une étape, forme de base, est, il, il
Selon ici, à partir de la gauche, "mot original", "partie de mots", "partie de sous-classification de partie 1", "classification 2", "classification" "3", "type d'utilisation", "type d'utilisation", "prototype", "lecture", "prononciation".
Le résultat de tokenize a les propriétés de chaîne suivantes.
--surface: mot d'origine --part_of_speech: [Partie du mot], [Partie du mot sous-classification 1], [Catégorie 2], [Catégorie 3] --infl_type: type d'utilisation --infl_form: type d'utilisation --base_form: Prototype --lecture: lecture --phonetic: Prononciation.
Recommended Posts