Ich habe WSL (Windows Subsystem für Linux) + Ubuntu verwendet, um das NEologd-Wörterbuch zu installieren, ein Wörterbuch für die morphologische Analyse von MeCab, aber es war relativ einfach mit git für Windows und 7-zip zu installieren.
Da ich das Benutzerwörterbuch im vorherigen Artikel ↓ beschrieben habe, handelt es sich diesmal um die Systemwörterbuch-Edition. https://qiita.com/zincjp/items/c61c441426b9482b5a48
Windows10 64-Bit-Sprache: Japanisch MeCab 0.996-32bit
git for Windows 2.20.1 64-bit 7-Zip 18.06 64-bit
Legen Sie die Umgebungsvariable im folgenden Ordner fest, der die ausführbare MeCab-Datei enthält, und legen Sie sie im PATH ab. C:\Program Files (x86)\MeCab\bin
Das heruntergeladene NEologd-Wörterbuch ist im xz-Format komprimiert. Verwenden Sie daher 7-zip, um es zu extrahieren. Laden Sie 7-zip 64bit von der folgenden Site herunter und installieren Sie es. https://sevenzip.osdn.jp/
Legen Sie Folgendes als Umgebungsvariablen fest C:\Program Files\7-Zip
Installieren Sie git für Windows 64bit unter Bezugnahme auf die folgende Site https://qiita.com/taiponrock/items/632c117220e57d555099
Eingabeaufforderung als Administrator starten Mit dem folgenden Befehl in den Arbeitsordner wechseln
cd %homepath%
Laden Sie dann das NEologd-Wörterbuch mit dem folgenden Befehl herunter
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
Verwenden Sie an der Eingabeaufforderung den folgenden Befehl, um zu C zu wechseln: \ Users \ (Benutzername) \ mecab-ipadic-neologd \ seed, und überprüfen Sie die Datei.
cd mecab-ipadic-neologd\seed
dir
Extrahieren Sie diese .csv.xz-Dateien mit dem folgenden Befehl in 7-zip.
7z X *.xz
Kopieren Sie die CSV-Datei mit dem folgenden Befehl in den Ordner dic \ ipadic von Mecab. Die CSV-Datei mecab-user-dict-seed. (Date) ist jedoch groß und wird häufig aktualisiert. Daher möchte ich sie als Benutzerwörterbuch verwenden. In dieser Arbeit gelöscht.
copy *.csv "c:\Program Files (x86)\MeCab\dic\ipadic"
del "c:\Program Files (x86)\MeCab\dic\ipadic\mecab-user-dict-seed.*"
Alle CSV-Dateien in c: \ Programme (x86) \ MeCab \ dic \ ipadic, Zeichencode der Datei unk.def Konvertieren Sie mit einem Editor von SHIFT-JIS (Zeilenvorschub CR + LF) nach UTF-8 (Zeilenvorschub LF).
Ich habe den Zeichencode mit EmEditor (https://jp.emeditor.com/) konvertiert.
Dies liegt daran, dass die CSV-Datei des neologd-Wörterbuchs im UTF-8-Format und die standardmäßig enthaltene CSV-Datei des IPA-Wörterbuchs im SHIFT-JIS-Format vorliegt. Wenn Sie ein Wörterbuch unter verschiedenen Code-Mischbedingungen kompilieren, werden morphologische Elemente angezeigt, deren Teiltextinformationen bei morphologischer Analyse als "??" angezeigt werden.
Erstellen Sie mit dem folgenden Befehl ein SHIFT-JIS-Systemwörterbuch im ipadic-Ordner.
cd "c:\Program Files (x86)\MeCab\dic\ipadic"
mecab-dict-index -f utf-8 -t shift-jis
Da das UTF-8-Wörterbuch für UTF-8-Systeme wie Python weiterhin erforderlich ist, erstellen Sie das UTF-8-Systemwörterbuch mit dem folgenden Befehl. Verwenden Sie den folgenden Befehl, um alle Dateien im ipadic-Ordner in den neu erstellten ipadic-UTF8-Ordner zu kopieren.
mkdir "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
copy * "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
Erstellen Sie mit dem folgenden Befehl ein UTF-8-Systemwörterbuch aus den Dateien in c: \ Programme (x86) \ MeCab \ dic \ ipadic-UTF8.
cd "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8
Dies war nicht im Benutzerwörterbuch Sie können "Ooi Ooi" usw. analysieren.
Vor der Einführung des NEologd-Systemwörterbuchs
Hey Hey Hey
Hey hey Zusatz,Allgemeines,*,*,*,*,Hey hey,Oioi,Oioi
Hey emotionale Worte,*,*,*,*,*,Hallo,Oy,Oy
EOS
Nach der Einführung des NEologd-Systemwörterbuchs
Hey Hey Hey
Hey hey hey emotionales Verb,*,*,*,*,*,Hey hey,Ach ACH ACH,Ach ACH ACH
EOS
NEologd Wörterbuch URL
https://github.com/neologd/mecab-ipadic-neologd/blob/master/ChangeLog
Recommended Posts