[PYTHON] MeCab: Hinzufügen neuer Wörter zum benutzerdefinierten Wörterbuch (Windows)

SAMPLE

Mein Substantiv,Gleichbedeutend,Allgemeines,*,*,*,ich,ich,ich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Schwester Nomen,Allgemeines,*,*,*,*,Schwester,Ane,Ane
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Ryunosuke Akutagawa Nomenklatur,Proprietäre Nomenklatur,Schriftsteller,*,*,*,Ryunosuke Akutagawa,Ryunosuke Akutagawa,Actagawa Ryunosuke
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Diese Nomenklatur,Allgemeines,*,*,*,*,Buch,Hong,Hong
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Gut ergänzt,Allgemeines,*,*,*,*,Häufig,Yoku,Yoku
Verb lesen,Unabhängigkeit,*,*,Fünf Schritte, Ma Linie,Kontinuierliche Verbindung,Lesen,Jung,Jung
Hilfs,Verbindungsassistent,*,*,*,*,damit,De,De
Das Verb das ist,Nicht unabhängig,*,*,Ein Schritt,Grundform,Ist,Il,Il
.. Symbol,Phrase,*,*,*,*,。,。,。
 BOS/EOS,*,*,*,*,*,*,*,*

REFERENCE Hinzufügen von Vokabeln zum MeCab-Wörterbuch [Windows 10, Ubuntu 18.04]

Fügen Sie einem benutzerdefinierten Wörterbuch ein neues Wort hinzu

Bereiten Sie ein Wörterbuch vor

Bereiten Sie ein Wörterbuch als utf-8 in der CSV-Datei vor. Verzeichnis: C: \ Benutzer \ Benutzername \ Desktop \ MeCabUserDic Dateiname: test_dic.csv

Ryunosuke Akutagawa,,,5543,Substantiv,固有Substantiv,Schriftsteller,*,*,*,Ryunosuke Akutagawa,Ryunosuke Akutagawa,Actagawa Ryunosuke
Osamu Dazai,,,5543,Substantiv,固有Substantiv,Schriftsteller,*,*,*,Osamu Dazai,Osamu,Dazaio Sam

Oberflächenform, linke Kontext-ID, rechte Kontext-ID, Kosten, Teiltexte, Teiltexte Unterklassifizierung 1, Teilteilunterklassifizierung 2, Teilteilunterklassifizierung 3, Verwendungsart, Verwendungsform, Prototyp, Lesen, Aussprache

Die linke Kontext-ID und die rechte Kontext-ID sind die internen IDs, wenn die entsprechenden Wörter von links bzw. rechts gezählt werden. Es scheint in Ordnung zu sein, wenn es leer ist, weil es automatisch angegeben wird, aber ich habe einen Fehler (und verstümmelte Zeichen) erhalten, also habe ich einen geeigneten Wert zugewiesen.

Geben Sie den Kosten die gleiche Punktzahl wie Wörtern, die mit ähnlicher Häufigkeit erscheinen. Je niedriger die Kosten, desto einfacher ist die Erkennung.

Benutzerwörterbuch kompilieren

Führen Sie MeCab \ dic \ ipadic \ mecab-dict-index aus. Wenn ich es an einer normalen Eingabeaufforderung ausführe, wird mir die Berechtigung verweigert. Starten Sie mit dem folgenden Befehl eine Eingabeaufforderung mit Administratorrechten.

powershell start-process cmd -verb runas

Erstellen Sie eine neue DIC-Datei basierend auf der CSV-Datei, die mit dem folgenden Befehl erstellt wurde.

mecab-dict-index -t utf-8 -t utf-8 -d "<Pfad des MeCab-Wörterbuchverzeichnisses>" -u <Pfad des Verzeichnisses zum Erstellen einer neuen DIC-Datei> <Pfad der definierten Wörterbuch-CSV-Datei>

Das obige Befehlsbeispiel ist unten.

mecab-dict-index -f utf-8 -t utf-8 -d "C:\Program Files\MeCab\dic\ipadic" -u C:\Users\yuri.kinoshita\Desktop\MeCabUserDic\test.dic C:\Users\yuri.kinoshita\Desktop\test_dic.csv

Dies ist das Ausführungsergebnis. done!

reading C:\Users\yuri.kinoshita\Desktop\MeCabUserDic\test_dic.csv ... 2
emitting double-array: 100% |###########################################|

done!

HOW TO USE

import MeCab

mecab = MeCab.Tagger (r"-Ochasen -u C:\Users\yuri.kinoshita\Desktop\MeCabUserDic\test.dic")

text = "Meine Schwester liest oft Ryunosuke Akutagawas Buch."
node = mecab.parseToNode(text)
while True:
	node = node.next
	if not node: break
	print(node.surface,node.feature)

Ausführungsbeispiel.

Mein Substantiv,Gleichbedeutend,Allgemeines,*,*,*,ich,ich,ich
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Schwester Nomen,Allgemeines,*,*,*,*,Schwester,Ane,Ane
Ist ein Assistent,Hilfe,*,*,*,*,Ist,C.,Beeindruckend
Ryunosuke Akutagawa Nomenklatur,Eigenname,Schriftsteller,*,*,*,Ryunosuke Akutagawa,Ryunosuke Akutagawa,Actagawa Ryunosuke
Hilfswörter,Union,*,*,*,*,von,Nein,Nein
Diese Nomenklatur,Allgemeines,*,*,*,*,Buch,Hong,Hong
Hilfs,Fallassistent,Allgemeines,*,*,*,Zu,Wo,Wo
Gut ergänzt,Allgemeines,*,*,*,*,Häufig,Yoku,Yoku
Verb lesen,Unabhängigkeit,*,*,Fünf Schritte, Ma Linie,Kontinuierliche Verbindung,Lesen,Jung,Jung
Hilfs,Verbindungsassistent,*,*,*,*,damit,De,De
Das Verb das ist,Nicht unabhängig,*,*,Ein Schritt,Grundform,Ist,Il,Il
.. Symbol,Phrase,*,*,*,*,。,。,。
 BOS/EOS,*,*,*,*,*,*,*,*

Recommended Posts

MeCab: Hinzufügen neuer Wörter zum benutzerdefinierten Wörterbuch (Windows)
Fügen Sie MeCab ein Wörterbuch hinzu
Fügen Sie MeCab ein Benutzerwörterbuch hinzu
[Morphologische Analyse] So fügen Sie Mecab ein neues Wörterbuch hinzu
Fügen Sie dem Benutzerwörterbuch von MeCab unter Ubuntu Wörter zur Verwendung in Python hinzu
Fügen Sie Windows zum Startmenü des Linux-Betriebssystems hinzu
Wie füge ich eine Anaconda Powershell-Eingabeaufforderung zum Windows-Terminal hinzu?