[PYTHON] Un moyen relativement simple d'insérer un dictionnaire NEologd dans le dictionnaire Windows-System

introduction

J'ai utilisé WSL (Windows Subsystem for Linux) + Ubuntu pour installer le dictionnaire NEologd, qui est un dictionnaire d'analyse morphologique de MeCab, mais il était relativement facile à installer avec git pour Windows et 7-zip.

Depuis que j'ai décrit le dictionnaire utilisateur dans l'article précédent ↓, il s'agit cette fois de l'édition du dictionnaire système. https://qiita.com/zincjp/items/c61c441426b9482b5a48

environnement

Windows10 64 bits Langue: japonais MeCab 0.996-32bit

Que présenter

git for Windows 2.20.1 64-bit 7-Zip 18.06 64-bit

Procédure d'installation

CHEMIN vers MeCab

Définissez la variable d'environnement dans le dossier suivant contenant le fichier exécutable MeCab et placez-le dans le PATH. C:\Program Files (x86)\MeCab\bin

Installez 7-zip et définissez les variables d'environnement

Installation 7-zip

Le dictionnaire NEologd téléchargé est compressé au format xz, utilisez donc 7-zip pour l'extraire. Téléchargez et installez 7-zip 64bit à partir du site suivant. https://sevenzip.osdn.jp/

PATH vers 7-zip

Définissez les éléments suivants comme variables d'environnement C:\Program Files\7-Zip

Installez git pour Windows

Installez git pour Windows 64 bits en vous référant au site suivant https://qiita.com/taiponrock/items/632c117220e57d555099

Télécharger le dictionnaire NEologd

Télécharger le dictionnaire depuis git (créer un clone)

Lancez l'invite de commande en tant qu'administrateur Déplacer vers le dossier de travail avec la commande suivante

cd %homepath%

Ensuite, téléchargez le dictionnaire NEologd avec la commande suivante

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

Vérifiez le fichier de dictionnaire NEologd

À partir de l'invite de commande, utilisez la commande suivante pour accéder à C: \ Users \ (nom d'utilisateur) \ mecab-ipadic-neologd \ seed et vérifiez le fichier.

cd mecab-ipadic-neologd\seed
dir

image.png

Extraire le fichier de dictionnaire NEologd

Extrayez ces fichiers .csv.xz avec la commande suivante dans 7-zip.

7z X *.xz

Copier le fichier .csv

Copiez le fichier csv dans le dossier dic \ ipadic de Mecab avec la commande suivante. Cependant, le fichier mecab-user-dict-seed. (Date) .csv est volumineux et fréquemment mis à jour, je veux donc l'utiliser comme dictionnaire utilisateur. Supprimé dans ce travail.

copy *.csv "c:\Program Files (x86)\MeCab\dic\ipadic"
del "c:\Program Files (x86)\MeCab\dic\ipadic\mecab-user-dict-seed.*"

SHIFT-Convertit les fichiers au format JIS au format UTF-8.

Tous les fichiers .csv dans c: \ Program Files (x86) \ MeCab \ dic \ ipadic, code de caractère du fichier unk.def Conversion de SHIFT-JIS (saut de ligne CR + LF) en UTF-8 (saut de ligne LF) avec un éditeur.

J'ai converti le code de caractère avec EmEditor (https://jp.emeditor.com/).

En effet, le fichier csv du dictionnaire neologd est au format UTF-8 et le fichier csv du dictionnaire ipa qui est inclus par défaut est au format SHIFT-JIS. Si vous compilez un dictionnaire dans différentes conditions de code mélangé, vous verrez une certaine morphologie qui affiche "??"

Compilation de fichiers de dictionnaire

SHIFT-Créer un dictionnaire JIS

Créez un dictionnaire système SHIFT-JIS dans le dossier ipadic avec la commande suivante.

cd "c:\Program Files (x86)\MeCab\dic\ipadic"
mecab-dict-index -f utf-8 -t shift-jis

Création d'un dictionnaire UTF-8

Étant donné que le dictionnaire UTF-8 est toujours requis pour les systèmes UTF-8 tels que Python, créez le dictionnaire système UTF-8 avec la commande suivante. Utilisez la commande suivante pour copier tous les fichiers du dossier ipadic dans le dossier ipadic-UTF8 nouvellement créé.

mkdir "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
copy * "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"

Créez un dictionnaire système UTF-8 à partir des fichiers dans c: \ Program Files (x86) \ MeCab \ dic \ ipadic-UTF8 avec la commande suivante.

cd "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8"
mecab-dict-index -f utf-8 -t utf-8

Tests analytiques

Ce n'était pas dans le dictionnaire utilisateur Vous pourrez analyser "Ooi Ooi" etc.

Avant d'introduire le dictionnaire système NEologd


Hey hey hey
Hey hey complément,Général,*,*,*,*,Hey hey,Oioi,Oioi
Hé mots émotionnels,*,*,*,*,*,Hey,Oy,Oy
EOS

Après avoir introduit le dictionnaire système NEologd


Hey hey hey
Hey hey hey verbe émotionnel,*,*,*,*,*,Hey hey,Oioioi,Oioioi
EOS

référence

URL du dictionnaire NEologd

https://github.com/neologd/mecab-ipadic-neologd/blob/master/ChangeLog

Recommended Posts

Un moyen relativement simple d'insérer un dictionnaire NEologd dans le dictionnaire Windows-System
Un moyen simple d'utiliser Python 2.7 sur Cent OS 6
Comment charger facilement le processeur / la mémoire sous Linux
Même les débutants peuvent le faire! Un moyen facile d'écrire un diagramme de Sankey dans Plotly
Ajouter un dictionnaire à MeCab
Un moyen simple de renommer des fichiers
Un moyen très pratique de présenter avec Jupyter Notebook
Est-il facile de synthétiser un médicament sur le marché?
Copie facile dans le presse-papier sous Linux
Un moyen simple de personnaliser l'importation Python
Metaclass (wip) pour générer un dictionnaire
Un moyen simple d'utiliser Wikipedia avec Python
Différentes façons de créer un dictionnaire (mémoires)
Script pour créer un fichier de dictionnaire Mac
Comment tester sur une page authentifiée par Django