Einführung

Ich habe WSL (Windows Subsystem für Linux) + Ubuntu verwendet, um das NEologd-Wörterbuch zu installieren, ein Wörterbuch für die morphologische Analyse von MeCab, aber es war relativ einfach mit git für Windows und 7-zip zu installieren.

Da ich das Benutzerwörterbuch im vorherigen Artikel ↓ beschrieben habe, handelt es sich diesmal um die Systemwörterbuch-Edition. https://qiita.com/zincjp/items/c61c441426b9482b5a48

Umgebung

Windows10 64-Bit-Sprache: Japanisch MeCab 0.996-32bit

Was ist vorzustellen?

git for Windows 2.20.1 64-bit 7-Zip 18.06 64-bit

Installationsverfahren

WEG zu MeCab

Legen Sie die Umgebungsvariable im folgenden Ordner fest, der die ausführbare MeCab-Datei enthält, und legen Sie sie im PATH ab. C:\Program Files (x86)\MeCab\bin

Installieren Sie 7-zip und legen Sie Umgebungsvariablen fest

7-Zip-Installation

Das heruntergeladene NEologd-Wörterbuch ist im xz-Format komprimiert. Verwenden Sie daher 7-zip, um es zu extrahieren. Laden Sie 7-zip 64bit von der folgenden Site herunter und installieren Sie es. https://sevenzip.osdn.jp/

PFAD bis 7-Reißverschluss

Legen Sie Folgendes als Umgebungsvariablen fest C:\Program Files\7-Zip

Installieren Sie git für Windows

Installieren Sie git für Windows 64bit unter Bezugnahme auf die folgende Site https://qiita.com/taiponrock/items/632c117220e57d555099

Laden Sie das NEologd-Wörterbuch herunter

Wörterbuch von git herunterladen (Klon erstellen)

Eingabeaufforderung als Administrator starten Mit dem folgenden Befehl in den Arbeitsordner wechseln

cd %homepath%

Laden Sie dann das NEologd-Wörterbuch mit dem folgenden Befehl herunter

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

Überprüfen Sie die NEologd-Wörterbuchdatei

Verwenden Sie an der Eingabeaufforderung den folgenden Befehl, um zu C zu wechseln: \ Users \ (Benutzername) \ mecab-ipadic-neologd \ seed, und überprüfen Sie die Datei.

cd mecab-ipadic-neologd\seed
dir

NEologd-Wörterbuchdatei extrahieren

Extrahieren Sie diese .csv.xz-Dateien mit dem folgenden Befehl in 7-zip.

7z X *.xz

CSV-Datei kopieren

Kopieren Sie die CSV-Datei mit dem folgenden Befehl in den Ordner dic \ ipadic von Mecab. Die CSV-Datei mecab-user-dict-seed. (Date) ist jedoch groß und wird häufig aktualisiert. Daher möchte ich sie als Benutzerwörterbuch verwenden. In dieser Arbeit gelöscht.

copy *.csv "c:\Program Files (x86)\MeCab\dic\ipadic"
del "c:\Program Files (x86)\MeCab\dic\ipadic\mecab-user-dict-seed.*"

UMSCHALT-Konvertiert Dateien im JIS-Format in das UTF-8-Format.

Alle CSV-Dateien in c: \ Programme (x86) \ MeCab \ dic \ ipadic, Zeichencode der Datei unk.def Konvertieren Sie mit einem Editor von SHIFT-JIS (Zeilenvorschub CR + LF) nach UTF-8 (Zeilenvorschub LF).

Ich habe den Zeichencode mit EmEditor (https://jp.emeditor.com/) konvertiert.

Dies liegt daran, dass die CSV-Datei des neologd-Wörterbuchs im UTF-8-Format und die standardmäßig enthaltene CSV-Datei des IPA-Wörterbuchs im SHIFT-JIS-Format vorliegt. Wenn Sie ein Wörterbuch unter verschiedenen Code-Mischbedingungen kompilieren, werden morphologische Elemente angezeigt, deren Teiltextinformationen bei morphologischer Analyse als "??" angezeigt werden.

Wörterbuchdateien kompilieren

UMSCHALT-JIS-Wörterbuch erstellen

Erstellen Sie mit dem folgenden Befehl ein SHIFT-JIS-Systemwörterbuch im ipadic-Ordner.

cd "c:\Program Files (x86)\MeCab\dic\ipadic"
mecab-dict-index -f utf-8 -t shift-jis

Erstellen eines UTF-8-Wörterbuchs

Da das UTF-8-Wörterbuch für UTF-8-Systeme wie Python weiterhin erforderlich ist, erstellen Sie das UTF-8-Systemwörterbuch mit dem folgenden Befehl. Verwenden Sie den folgenden Befehl, um alle Dateien im ipadic-Ordner in den neu erstellten ipadic-UTF8-Ordner zu kopieren.

mkdir "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
copy * "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"

Erstellen Sie mit dem folgenden Befehl ein UTF-8-Systemwörterbuch aus den Dateien in c: \ Programme (x86) \ MeCab \ dic \ ipadic-UTF8.

cd "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8

Analytische Prüfung

Dies war nicht im Benutzerwörterbuch Sie können "Ooi Ooi" usw. analysieren.

`Vor der Einführung des NEologd-Systemwörterbuchs`


Hey Hey Hey
Hey hey Zusatz,Allgemeines,*,*,*,*,Hey hey,Oioi,Oioi
Hey emotionale Worte,*,*,*,*,*,Hallo,Oy,Oy
EOS

`Nach der Einführung des NEologd-Systemwörterbuchs`


Hey Hey Hey
Hey hey hey emotionales Verb,*,*,*,*,*,Hey hey,Ach ACH ACH,Ach ACH ACH
EOS

Referenz

NEologd Wörterbuch URL

https://github.com/neologd/mecab-ipadic-neologd/blob/master/ChangeLog

[PYTHON] Eine relativ einfache Möglichkeit, ein NEologd-Wörterbuch in das Windows-System-Wörterbuch einzufügen