J'ai utilisé WSL (Windows Subsystem for Linux) + Ubuntu pour installer le dictionnaire NEologd, qui est un dictionnaire d'analyse morphologique de MeCab, mais il était relativement facile à installer avec git pour Windows et 7-zip.
Depuis que j'ai décrit le dictionnaire utilisateur dans l'article précédent ↓, il s'agit cette fois de l'édition du dictionnaire système. https://qiita.com/zincjp/items/c61c441426b9482b5a48
Windows10 64 bits Langue: japonais MeCab 0.996-32bit
git for Windows 2.20.1 64-bit 7-Zip 18.06 64-bit
Définissez la variable d'environnement dans le dossier suivant contenant le fichier exécutable MeCab et placez-le dans le PATH. C:\Program Files (x86)\MeCab\bin
Le dictionnaire NEologd téléchargé est compressé au format xz, utilisez donc 7-zip pour l'extraire. Téléchargez et installez 7-zip 64bit à partir du site suivant. https://sevenzip.osdn.jp/
Définissez les éléments suivants comme variables d'environnement C:\Program Files\7-Zip
Installez git pour Windows 64 bits en vous référant au site suivant https://qiita.com/taiponrock/items/632c117220e57d555099
Lancez l'invite de commande en tant qu'administrateur Déplacer vers le dossier de travail avec la commande suivante
cd %homepath%
Ensuite, téléchargez le dictionnaire NEologd avec la commande suivante
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
À partir de l'invite de commande, utilisez la commande suivante pour accéder à C: \ Users \ (nom d'utilisateur) \ mecab-ipadic-neologd \ seed et vérifiez le fichier.
cd mecab-ipadic-neologd\seed
dir
Extrayez ces fichiers .csv.xz avec la commande suivante dans 7-zip.
7z X *.xz
Copiez le fichier csv dans le dossier dic \ ipadic de Mecab avec la commande suivante. Cependant, le fichier mecab-user-dict-seed. (Date) .csv est volumineux et fréquemment mis à jour, je veux donc l'utiliser comme dictionnaire utilisateur. Supprimé dans ce travail.
copy *.csv "c:\Program Files (x86)\MeCab\dic\ipadic"
del "c:\Program Files (x86)\MeCab\dic\ipadic\mecab-user-dict-seed.*"
Tous les fichiers .csv dans c: \ Program Files (x86) \ MeCab \ dic \ ipadic, code de caractère du fichier unk.def Conversion de SHIFT-JIS (saut de ligne CR + LF) en UTF-8 (saut de ligne LF) avec un éditeur.
J'ai converti le code de caractère avec EmEditor (https://jp.emeditor.com/).
En effet, le fichier csv du dictionnaire neologd est au format UTF-8 et le fichier csv du dictionnaire ipa qui est inclus par défaut est au format SHIFT-JIS. Si vous compilez un dictionnaire dans différentes conditions de code mélangé, vous verrez une certaine morphologie qui affiche "??"
Créez un dictionnaire système SHIFT-JIS dans le dossier ipadic avec la commande suivante.
cd "c:\Program Files (x86)\MeCab\dic\ipadic"
mecab-dict-index -f utf-8 -t shift-jis
Étant donné que le dictionnaire UTF-8 est toujours requis pour les systèmes UTF-8 tels que Python, créez le dictionnaire système UTF-8 avec la commande suivante. Utilisez la commande suivante pour copier tous les fichiers du dossier ipadic dans le dossier ipadic-UTF8 nouvellement créé.
mkdir "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
copy * "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
Créez un dictionnaire système UTF-8 à partir des fichiers dans c: \ Program Files (x86) \ MeCab \ dic \ ipadic-UTF8 avec la commande suivante.
cd "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8
Ce n'était pas dans le dictionnaire utilisateur Vous pourrez analyser "Ooi Ooi" etc.
Avant d'introduire le dictionnaire système NEologd
Hey hey hey
Hey hey complément,Général,*,*,*,*,Hey hey,Oioi,Oioi
Hé mots émotionnels,*,*,*,*,*,Hey,Oy,Oy
EOS
Après avoir introduit le dictionnaire système NEologd
Hey hey hey
Hey hey hey verbe émotionnel,*,*,*,*,*,Hey hey,Oioioi,Oioioi
EOS
URL du dictionnaire NEologd
https://github.com/neologd/mecab-ipadic-neologd/blob/master/ChangeLog
Recommended Posts