Einführung in die Verwendung des japanischen morphologischen Analysetools ** janome **. Janome ist Pythons morphologische Analyse-Engine. Japanischer Text kann in morphologische Elemente unterteilt werden, um den Teil des Textes zu beurteilen oder um ihn zu trennen (in Wörter zu unterteilen).
!pip install janome
from janome.tokenizer import Tokenizer
s = Tokenizer() # <-Erstellen Sie eine Instanz von Tokenizer
t = 'Da ist ein Eichhörnchen'
tt = 'Es gibt zwei Hühner im Garten'
for _ in s.tokenize(t):
print(_)
for __ in s.tokenize(tt):
print(__)
[Output] =================================================== Ni ----- Auxiliary, Case Auxiliary, General, *, *, *, Ni, Ni, Ni Wani ----- Nomenklatur, Allgemein, *, *, *, *, Wani, Krokodil, Krokodil Wani ----- Nomenklatur, Allgemein, *, *, *, *, Wani, Krokodil, Krokodil Wa ----- Assistent, Endassistent, *, *, *, *, Wa, Wa, Wa Niwatori ----- Nomenklatur, Allgemein, *, *, *, *, Niwatori, Huhn, Huhn ----- Hilfskraft, Fallassistent, General, *, *, *, ga, ga, ga Ist ----- Verb, Unabhängigkeit, *, *, ein Schritt, Grundform, ist, il, il
Garten ----- Nomenklatur, Allgemein, *, *, *, *, Garten, Niwa, Niwa Ni ----- Auxiliary, Case Auxiliary, General, *, *, *, Ni, Ni, Ni ----- Auxiliary, Zugehörigkeit, *, *, *, *, ha, wa Zwei ----- Nomenklatur, Zahl, *, *, *, *, zwei, zwei, zwei Flügel ----- Nomenklatur, Endungen, Hilfswörter, *, *, *, Flügel, wa, wa Huhn ----- Nomenklatur, Allgemein, *, *, *, *, Huhn, Huhn, Huhn ----- Hilfskraft, Fallassistent, General, *, *, *, ga, ga, ga Ist ----- Verb, Unabhängigkeit, *, *, ein Schritt, Grundform, ist, il, il [end] ======================================================
Reference
Recommended Posts