Ich wollte Markov Chain Artificial Brainless in Python implementieren. Übrigens, als ich untersuchte, was ich in die morphologische Analyse einbringen sollte, Janome ist nicht von anderen Bibliotheken abhängig Es scheint, dass Sie es schnell mit einem Pip installieren können. Versuch es!
Python 3.8.5 Janome 0.4.1
from janome.tokenizer import Tokenizer
t = Tokenizer()
s = "Das rote Pulver des graswakabafarbenen Bleistifts ist verstreut und ich kann nicht schlafen"
for token in t.tokenize(s):
print(token)
Verwenden Sie die Tokenizer-Klasse.
t = Tokenizer()
Erstellen Sie eine Tokenizer-Instanz.
for token in t.tokenize(s):
print(token)
Übergeben Sie den zu analysierenden Satz an die Tokenize-Methode. Wenn Sie den Inhalt wie oben einzeln anzeigen, sieht dies folgendermaßen aus.
python analysis.py
Gras Nomen,Allgemeines,*,*,*,*,Gras,Kusa,Kusa
Wakaba Substantiv,Proprietäre Nomenklatur,Organisation,*,*,*,Wakaba,Wakaba,Wakaba
Farbstift Nomen,Allgemeines,*,*,*,*,Buntstift,Iroempitsu,Iroempitsu
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Rotes Adjektiv,Unabhängigkeit,*,*,Apokalypse,Wortverbindung,rot,Akaki,Akaki
Pulver Nomen,Allgemeines,*,*,*,*,Pulver,Kona,Kona
Hilfswörter,Fallassistent,Allgemeines,*,*,*,von,Nein,Nein
Streuverb,Unabhängigkeit,*,*,Fünf Schritte, La Linie,Grundform,Streuen,Ausruhen,Ausruhen
Ist ein Assistent,Verbindungsassistent,*,*,*,*,Aber,Ga,Ga
Geliebtes Adjektiv,Unabhängigkeit,*,*,Adjektiv / Idan,Kontinuierliche Verbindung,Geliebte,Itoshiku,Itoshiku
Schlafverb,Unabhängigkeit,*,*,Ein Schritt,Kontinuierlicher Typ,schlafen,Ne,Ne
Der Assistent,Verbindungsassistent,*,*,*,*,Hand,Te,Te
Kezuru Verb,Unabhängigkeit,*,*,Fünf Schritte, La Linie,Grundform,Kezuru,Kezuru,Kezuru
Nari Assistent,Verbindungsassistent,*,*,*,*,Nari,Nari,Nari
Sie können die Elemente auch einzeln herausnehmen. Ich habe versucht, die Oberflächenebenenform, die Grundform und die Teiltexte auszugeben.
from janome.tokenizer import Tokenizer
t = Tokenizer()
s = "Ich kann nicht schlafen"
for token in t.tokenize(s):
print("==========")
print(token.surface + " (Oberflächentyp)")
print(token.base_form + " (Grundform)")
print(token.part_of_speech + " (Teil)")
Ausführungsergebnis
python analysis.py
==========
Schlafen(Oberflächentyp)
schlafen(Grundform)
Verb,Unabhängigkeit,*,* (Teil)
==========
Hand(Oberflächentyp)
Hand(Grundform)
Partikel,接続Partikel,*,* (Teil)
==========
Kezuru(Oberflächentyp)
Kezuru(Grundform)
Verb,Unabhängigkeit,*,* (Teil)
==========
Nari(Oberflächentyp)
Nari(Grundform)
Partikel,接続Partikel,*,* (Teil)
Wir werden die Satzgenerierung im nächsten Kapitel implementieren. Markov Chain Artificial Brainless mit Python + Janome (2) Einführung in die Markov Chain
Recommended Posts