Présentation de l'utilisation de l'outil d'analyse morphologique japonais ** janome **. Janome est le moteur d'analyse morphologique de Python. Le texte japonais peut être divisé en éléments morphologiques pour juger de la partie du texte ou pour le séparer (diviser en mots).
!pip install janome
from janome.tokenizer import Tokenizer
s = Tokenizer() # <-Créer une instance de tokenizer
t = 'Il y a un écureuil'
tt = 'Il y a deux poulets dans le jardin'
for _ in s.tokenize(t):
print(_)
for __ in s.tokenize(tt):
print(__)
[Output] =================================================== Ni ----- Auxiliaire, Case Assistance, Général, *, *, *, Ni, Ni, Ni Wani ----- Nomenclature, Général, *, *, *, *, Wani, Crocodile, Crocodile Wani ----- Nomenclature, Général, *, *, *, *, Wani, Crocodile, Crocodile Wa ----- Assistant, Assistant final, *, *, *, *, Wa, Wa, Wa Niwatori ----- Nomenclature, Général, *, *, *, *, Niwatori, Poulet, Poulet ----- Auxiliaire, assistant de cas, général, *, *, *, ga, ga, ga Is ----- verbe, indépendance, *, *, une étape, forme de base, is, il, il
Jardin ----- Nomenclature, Général, *, *, *, *, Jardin, Niwa, Niwa Ni ----- Auxiliaire, Case Assistance, Général, *, *, *, Ni, Ni, Ni ----- Auxiliaire, affiliation, *, *, *, *, ha, wa Deux ----- nomenclature, nombre, *, *, *, *, deux, deux, deux Ailes ----- Nomenclature, terminaisons, mots auxiliaires, *, *, *, ailes, wa, wa Poulet ----- Nomenclature, Général, *, *, *, *, Poulet, Poulet, Poulet ----- Auxiliaire, assistant de cas, général, *, *, *, ga, ga, ga Is ----- verbe, indépendance, *, *, une étape, forme de base, is, il, il [end] ======================================================
Reference
Recommended Posts