SAMPLE
Mein Substantiv,Gleichbedeutend,Allgemeines,*,*,*,ich,ich,ich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Schwester Nomen,Allgemeines,*,*,*,*,Schwester,Ane,Ane
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Ryunosuke Akutagawa Nomenklatur,Proprietäre Nomenklatur,Schriftsteller,*,*,*,Ryunosuke Akutagawa,Ryunosuke Akutagawa,Actagawa Ryunosuke
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Diese Nomenklatur,Allgemeines,*,*,*,*,Buch,Hong,Hong
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Gut ergänzt,Allgemeines,*,*,*,*,Häufig,Yoku,Yoku
Verb lesen,Unabhängigkeit,*,*,Fünf Schritte, Ma Linie,Kontinuierliche Verbindung,Lesen,Jung,Jung
Hilfs,Verbindungsassistent,*,*,*,*,damit,De,De
Das Verb das ist,Nicht unabhängig,*,*,Ein Schritt,Grundform,Ist,Il,Il
.. Symbol,Phrase,*,*,*,*,。,。,。
BOS/EOS,*,*,*,*,*,*,*,*
REFERENCE Hinzufügen von Vokabeln zum MeCab-Wörterbuch [Windows 10, Ubuntu 18.04]
Bereiten Sie ein Wörterbuch als utf-8 in der CSV-Datei vor. Verzeichnis: C: \ Benutzer \ Benutzername \ Desktop \ MeCabUserDic Dateiname: test_dic.csv
Ryunosuke Akutagawa,,,5543,Substantiv,固有Substantiv,Schriftsteller,*,*,*,Ryunosuke Akutagawa,Ryunosuke Akutagawa,Actagawa Ryunosuke
Osamu Dazai,,,5543,Substantiv,固有Substantiv,Schriftsteller,*,*,*,Osamu Dazai,Osamu,Dazaio Sam
Oberflächenform, linke Kontext-ID, rechte Kontext-ID, Kosten, Teiltexte, Teiltexte Unterklassifizierung 1, Teilteilunterklassifizierung 2, Teilteilunterklassifizierung 3, Verwendungsart, Verwendungsform, Prototyp, Lesen, Aussprache
Die linke Kontext-ID und die rechte Kontext-ID sind die internen IDs, wenn die entsprechenden Wörter von links bzw. rechts gezählt werden. Es scheint in Ordnung zu sein, wenn es leer ist, weil es automatisch angegeben wird, aber ich habe einen Fehler (und verstümmelte Zeichen) erhalten, also habe ich einen geeigneten Wert zugewiesen.
Geben Sie den Kosten die gleiche Punktzahl wie Wörtern, die mit ähnlicher Häufigkeit erscheinen. Je niedriger die Kosten, desto einfacher ist die Erkennung.
Führen Sie MeCab \ dic \ ipadic \ mecab-dict-index aus. Wenn ich es an einer normalen Eingabeaufforderung ausführe, wird mir die Berechtigung verweigert. Starten Sie mit dem folgenden Befehl eine Eingabeaufforderung mit Administratorrechten.
powershell start-process cmd -verb runas
Erstellen Sie eine neue DIC-Datei basierend auf der CSV-Datei, die mit dem folgenden Befehl erstellt wurde.
mecab-dict-index -t utf-8 -t utf-8 -d "<Pfad des MeCab-Wörterbuchverzeichnisses>" -u <Pfad des Verzeichnisses zum Erstellen einer neuen DIC-Datei> <Pfad der definierten Wörterbuch-CSV-Datei>
Das obige Befehlsbeispiel ist unten.
mecab-dict-index -f utf-8 -t utf-8 -d "C:\Program Files\MeCab\dic\ipadic" -u C:\Users\yuri.kinoshita\Desktop\MeCabUserDic\test.dic C:\Users\yuri.kinoshita\Desktop\test_dic.csv
Dies ist das Ausführungsergebnis. done!
reading C:\Users\yuri.kinoshita\Desktop\MeCabUserDic\test_dic.csv ... 2
emitting double-array: 100% |###########################################|
done!
HOW TO USE
import MeCab
mecab = MeCab.Tagger (r"-Ochasen -u C:\Users\yuri.kinoshita\Desktop\MeCabUserDic\test.dic")
text = "Meine Schwester liest oft Ryunosuke Akutagawas Buch."
node = mecab.parseToNode(text)
while True:
node = node.next
if not node: break
print(node.surface,node.feature)
Ausführungsbeispiel.
Mein Substantiv,Gleichbedeutend,Allgemeines,*,*,*,ich,ich,ich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Schwester Nomen,Allgemeines,*,*,*,*,Schwester,Ane,Ane
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Ryunosuke Akutagawa Nomenklatur,Eigenname,Schriftsteller,*,*,*,Ryunosuke Akutagawa,Ryunosuke Akutagawa,Actagawa Ryunosuke
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Diese Nomenklatur,Allgemeines,*,*,*,*,Buch,Hong,Hong
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Gut ergänzt,Allgemeines,*,*,*,*,Häufig,Yoku,Yoku
Verb lesen,Unabhängigkeit,*,*,Fünf Schritte, Ma Linie,Kontinuierliche Verbindung,Lesen,Jung,Jung
Hilfs,Verbindungsassistent,*,*,*,*,damit,De,De
Das Verb das ist,Nicht unabhängig,*,*,Ein Schritt,Grundform,Ist,Il,Il
.. Symbol,Phrase,*,*,*,*,。,。,。
BOS/EOS,*,*,*,*,*,*,*,*
Recommended Posts