[PYTHON] Eine relativ einfache Möglichkeit, ein NEologd-Wörterbuch in das Windows-System-Wörterbuch einzufügen

Einführung

Ich habe WSL (Windows Subsystem für Linux) + Ubuntu verwendet, um das NEologd-Wörterbuch zu installieren, ein Wörterbuch für die morphologische Analyse von MeCab, aber es war relativ einfach mit git für Windows und 7-zip zu installieren.

Da ich das Benutzerwörterbuch im vorherigen Artikel ↓ beschrieben habe, handelt es sich diesmal um die Systemwörterbuch-Edition. https://qiita.com/zincjp/items/c61c441426b9482b5a48

Umgebung

Windows10 64-Bit-Sprache: Japanisch MeCab 0.996-32bit

Was ist vorzustellen?

git for Windows 2.20.1 64-bit 7-Zip 18.06 64-bit

Installationsverfahren

WEG zu MeCab

Legen Sie die Umgebungsvariable im folgenden Ordner fest, der die ausführbare MeCab-Datei enthält, und legen Sie sie im PATH ab. C:\Program Files (x86)\MeCab\bin

Installieren Sie 7-zip und legen Sie Umgebungsvariablen fest

7-Zip-Installation

Das heruntergeladene NEologd-Wörterbuch ist im xz-Format komprimiert. Verwenden Sie daher 7-zip, um es zu extrahieren. Laden Sie 7-zip 64bit von der folgenden Site herunter und installieren Sie es. https://sevenzip.osdn.jp/

PFAD bis 7-Reißverschluss

Legen Sie Folgendes als Umgebungsvariablen fest C:\Program Files\7-Zip

Installieren Sie git für Windows

Installieren Sie git für Windows 64bit unter Bezugnahme auf die folgende Site https://qiita.com/taiponrock/items/632c117220e57d555099

Laden Sie das NEologd-Wörterbuch herunter

Wörterbuch von git herunterladen (Klon erstellen)

Eingabeaufforderung als Administrator starten Mit dem folgenden Befehl in den Arbeitsordner wechseln

cd %homepath%

Laden Sie dann das NEologd-Wörterbuch mit dem folgenden Befehl herunter

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

Überprüfen Sie die NEologd-Wörterbuchdatei

Verwenden Sie an der Eingabeaufforderung den folgenden Befehl, um zu C zu wechseln: \ Users \ (Benutzername) \ mecab-ipadic-neologd \ seed, und überprüfen Sie die Datei.

cd mecab-ipadic-neologd\seed
dir

image.png

NEologd-Wörterbuchdatei extrahieren

Extrahieren Sie diese .csv.xz-Dateien mit dem folgenden Befehl in 7-zip.

7z X *.xz

CSV-Datei kopieren

Kopieren Sie die CSV-Datei mit dem folgenden Befehl in den Ordner dic \ ipadic von Mecab. Die CSV-Datei mecab-user-dict-seed. (Date) ist jedoch groß und wird häufig aktualisiert. Daher möchte ich sie als Benutzerwörterbuch verwenden. In dieser Arbeit gelöscht.

copy *.csv "c:\Program Files (x86)\MeCab\dic\ipadic"
del "c:\Program Files (x86)\MeCab\dic\ipadic\mecab-user-dict-seed.*"

UMSCHALT-Konvertiert Dateien im JIS-Format in das UTF-8-Format.

Alle CSV-Dateien in c: \ Programme (x86) \ MeCab \ dic \ ipadic, Zeichencode der Datei unk.def Konvertieren Sie mit einem Editor von SHIFT-JIS (Zeilenvorschub CR + LF) nach UTF-8 (Zeilenvorschub LF).

Ich habe den Zeichencode mit EmEditor (https://jp.emeditor.com/) konvertiert.

Dies liegt daran, dass die CSV-Datei des neologd-Wörterbuchs im UTF-8-Format und die standardmäßig enthaltene CSV-Datei des IPA-Wörterbuchs im SHIFT-JIS-Format vorliegt. Wenn Sie ein Wörterbuch unter verschiedenen Code-Mischbedingungen kompilieren, werden morphologische Elemente angezeigt, deren Teiltextinformationen bei morphologischer Analyse als "??" angezeigt werden.

Wörterbuchdateien kompilieren

UMSCHALT-JIS-Wörterbuch erstellen

Erstellen Sie mit dem folgenden Befehl ein SHIFT-JIS-Systemwörterbuch im ipadic-Ordner.

cd "c:\Program Files (x86)\MeCab\dic\ipadic"
mecab-dict-index -f utf-8 -t shift-jis

Erstellen eines UTF-8-Wörterbuchs

Da das UTF-8-Wörterbuch für UTF-8-Systeme wie Python weiterhin erforderlich ist, erstellen Sie das UTF-8-Systemwörterbuch mit dem folgenden Befehl. Verwenden Sie den folgenden Befehl, um alle Dateien im ipadic-Ordner in den neu erstellten ipadic-UTF8-Ordner zu kopieren.

mkdir "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
copy * "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"

Erstellen Sie mit dem folgenden Befehl ein UTF-8-Systemwörterbuch aus den Dateien in c: \ Programme (x86) \ MeCab \ dic \ ipadic-UTF8.

cd "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8

Analytische Prüfung

Dies war nicht im Benutzerwörterbuch Sie können "Ooi Ooi" usw. analysieren.

Vor der Einführung des NEologd-Systemwörterbuchs


Hey Hey Hey
Hey hey Zusatz,Allgemeines,*,*,*,*,Hey hey,Oioi,Oioi
Hey emotionale Worte,*,*,*,*,*,Hallo,Oy,Oy
EOS

Nach der Einführung des NEologd-Systemwörterbuchs


Hey Hey Hey
Hey hey hey emotionales Verb,*,*,*,*,*,Hey hey,Ach ACH ACH,Ach ACH ACH
EOS

Referenz

NEologd Wörterbuch URL

https://github.com/neologd/mecab-ipadic-neologd/blob/master/ChangeLog

Recommended Posts

Eine relativ einfache Möglichkeit, ein NEologd-Wörterbuch in das Windows-System-Wörterbuch einzufügen
Einfache Möglichkeit, Python 2.7 unter Cent OS 6 zu verwenden
So laden Sie einfach CPU / Speicher unter Linux
Auch Anfänger können es schaffen! Einfache Möglichkeit, Sankey Diagram in Plotly zu schreiben
Fügen Sie MeCab ein Wörterbuch hinzu
Einfache Möglichkeit, Dateien umzubenennen
Eine sehr bequeme Möglichkeit, mit Jupyter Notebook zu präsentieren
Wie einfach ist es, ein Medikament auf dem Markt zu synthetisieren?
Einfaches Kopieren in die Zwischenablage unter Linux
Einfache Möglichkeit, den Python-Import anzupassen
Metaklasse (delete) zum Generieren eines Wörterbuchs
Einfache Möglichkeit, Wikipedia mit Python zu verwenden
Verschiedene Möglichkeiten, ein Wörterbuch zu erstellen (Erinnerungen)
Skript zum Erstellen einer Mac-Wörterbuchdatei
So testen Sie auf einer von Django authentifizierten Seite