[PYTHON] Mettre en place un environnement de développement pour le traitement du langage naturel

Installez les packages suivants. Le système d'exploitation est ubuntu 16.04.

--python (3.5.0) --Langage avec de nombreuses bibliothèques pour le traitement du langage naturel --pyenv --Un package qui gère la version de python --MeCab (0.996) --Moteur d'analyse morphologique --CaboCha (0.69) --Moteur d'analyse des dépendances --gensim (0.12.4) --Une bibliothèque qui peut utiliser LDA et word2vec populaires

python3,pyenv

Pour le moment, insérez python. $ sudo apt-get install python Je pense que python2.7 ne sera installé qu'avec ceci, donc je vais abandonner pyenv qui gère la version de python. $ git clone https://github.com/yyuu/pyenv.git ~/.pyenv Pour utiliser pyenv, ajoutez le script suivant à un fichier de configuration du shell tel que .zshenv.

export PYENV_ROOT="$HOME/.pyenv"
export PATH=$PATH:$PYENV_ROOT/bin
eval "$(pyenv init -)"

** Addendum (11/12/2017) ** J'ai inversé l'ordre d'exportation. Cela ne peut être fait correctement que si PYENV_ROOT est défini en premier et appelé lors de la définition de PATH.

J'utilise zsh, mais lorsque j'appelle python à partir d'un script shell enregistré sous forme de fichier, il devient python2.7. J'ai écrit tous ces paramètres dans .zshrc, mais si vous regardez de plus près, .zshrc est un paramètre qui ne s'applique que sur le flux (lorsqu'une personne tape une commande), pas un script shell. Il semble. .zshenv est un fichier de configuration qui est toujours exécuté au démarrage de zsh. Écrivez toutes les variables d'environnement dans .zshenv.

Utilisons pyenv. Consultez la liste des versions de python qui peuvent être installées. $ pyenv install -l

Après avoir confirmé qu'il existe 3.5.0, installez python 3.5.0, modifiez la version d'utilisation et mettez à jour. Si la vérification de la version finale indique 3.5.0, elle réussit.

$ pyenv install 3.5.0
$ pyenv global 3.5.0
$ pyenv rehash
$ python --version

Ensuite, installez l'outil de gestion de bibliothèque de python, pip. Il sera utilisé plusieurs fois dans les paramètres suivants.

$ sudo apt-get install python-pip

URL de référence Guide de configuration ultra rapide pour les débutants Zsh http://qiita.com/uasi/items/c4288dd835a65eb9d709 Notes minimales lors de l'utilisation de Python sur Mac (édition pyenv) http://qiita.com/zaburo/items/dd1a8323633035614efc pyenv + virtualenv (CentOS7) http://qiita.com/saitou1978/items/e82421e29e118bd397cc Si vous souhaitez utiliser easy_install ou pip avec Python sur Ubuntu http://tech.g.hatena.ne.jp/rx7/20101129/p1

MeCab

Installez MeCab et les autres packages requis. $ sudo apt-get install mecab mecab-ipadic libmecab-dev

Si vous insérez mecab-ipadic, le code de caractère sera utf-8. Si libmecab-dev n'est pas inclus, cela provoquera de la colère si mecab-config n'est pas inclus. Les dictionnaires qui peuvent être utilisés avec MeCab incluent ipadic et juman, mais cette fois nous utiliserons mecab-ipadic-neologd. La caractéristique de ce dictionnaire est qu'il contient de nombreuses nomenclatures, symboles et lettres faciales appropriés. Installons-le avec la commande suivante.

$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git <Chemin pour enregistrer l'emplacement>
$ cd <Emplacement enregistré>/mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -h

Je pense que l'emplacement à enregistrer devrait être le même que le dictionnaire existant. Vous pouvez trouver l'emplacement du dictionnaire que vous utilisez actuellement avec mecab -D. Pour l'utiliser, utilisez la commande suivante.

mecab -d <emplacement de sauvegarde> / mecab-ipadic-neologd /

Ensuite, liez pour que MeCab puisse être utilisé à partir de python. Utilisez la commande suivante.

$ pip install mecab-python3

S'il n'y a pas d'erreur dans la commande suivante, elle réussit.

$ python
>>> import MeCab

URL de référence mecab-ipadic-NEologd : Neologism dictionary for MeCab https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

CaboCha

J'ai essayé de l'installer avec la commande suivante comme je l'ai fait auparavant.

$ sudo apt-get install subversion
$ pip install 'svn+http://cabocha.googlecode.com/svn/trunk/python@r99'

J'étais en colère de ne pas pouvoir trouver le colis. J'ai essayé diverses autres méthodes, mais j'ai finalement décidé de l'abandonner par la méthode décrite sur le site officiel. Tout d'abord, la bibliothèque CRF ++ requise pour cabocha, mais je suppose que cela ne fonctionnait pas avec wget, alors je l'ai téléchargée à partir du lien ci-dessous.

CRF++ https://drive.google.com/folderview?id=0B4y35FiV1wh7fngteFhHQUN2Y1B5eUJBNHZUemJYQV9VWlBUb3JlX0xBdWVZTWtSbVBneU0&usp=drive_web#list

J'ai laissé tomber le cabocha lui-même avec wget. La version est 0.67 à la destination du lien, mais définissons-la sur la dernière version 0.69.

$ tar zvxf  CRF++-0.58.tar.gz
$ cd CRF++-0.58
$ ./configure
$ make 
$ sudo make install
$ sudo ldconfig
$ wget http://cabocha.googlecode.com/files/cabocha-0.69.tar.bz2
$ tar xjvf cabocha-0.69.tar.bz
$ cd cabocha-0.69
$ ./configure --with-charset=UTF8 --with-posset=IPA
$ make
$ sudo make install
$ sudo ldconfig
$ cabocha

Ensuite, liez-vous à python3. Puisqu'il ne prend pas en charge python3 dans son état d'origine, modifiez un peu setup.py. setup.py est sous cabocha-69 / python.

setup.py


#Omission
def cmd2(str):
#   return string.split (cmd1(str))Supprimer cette ligne
    return cmd1(str).split() #Insérez cette ligne
#Omission

Après l'avoir réparé, installez-le avec la commande suivante.

$ cd cabocha-0.69/python
$ sudo python setup.py build_ext
$ sudo python setup.py install
$ sudo ldconfig

Lorsque vous utilisez cabocha, spécifiez le dictionnaire comme indiqué dans la commande suivante.

cabocha -d <emplacement de sauvegarde> / mecab-ipadic-neologd /

S'il n'y a pas d'erreur dans la commande suivante, elle réussit.

$ python
>>> import CaboCha

URL de référence Site officiel de CaboCha https://taku910.github.io/cabocha/ Notes d'installation de Cabocha http://qiita.com/ShingoOikawa/items/ef4ac2929ec19599a3cf J'ai écrit un patch pour utiliser CaboCha avec python3 http://nosada.hatenablog.com/entry/2014/03/14/002954 Spécifier le dictionnaire avec CaboCha (python) http://studylog.hateblo.jp/entry/2016/01/25/134507

gensim

Vous pouvez facilement l'installer avec la commande suivante. numpy et scipy sont des bibliothèques nécessaires pour utiliser gensim.

$ pip install numpy
$ pip install scipy
$ pip install gensim

Comme dans l'exemple, vérifiez s'il peut être installé avec la commande suivante.

$ python
>>> import numpy
>>> import scipy
>>> import gensim

URL de référence gensim:installation https://radimrehurek.com/gensim/install.html

Ceci termine les paramètres d'environnement. Je vous remercie pour votre travail acharné.

À la fin

La plupart d'entre eux ont fait référence aux articles que j'ai écrits sur mon propre blog auparavant.

Mise à niveau de python2.7 vers 3.5 (saveur NLP) http://woody-kawagoe.hatenablog.com/entry/2016/04/18/222535

J'étais à nouveau accro et je voulais écrire diverses choses sur qiita, alors je l'ai réécrit et l'ai posté sur qiita.

Recommended Posts

Mettre en place un environnement de développement pour le traitement du langage naturel
Configurer un environnement de développement Python sur Marvericks
Configurer l'environnement de développement TinyGo pour VS Code
Créer un environnement pour le traitement du langage naturel avec Python
Configurer un environnement de développement Python avec Sublime Text 2
Traitement du langage naturel pour les personnes occupées
Configurer un environnement de développement Python avec Visual Studio Code
Créer un environnement de développement Python pour le développement de l'IA
Créer un environnement de développement pour l'apprentissage automatique
Essayez de mettre en place un environnement de test Vim assez sérieusement (pour Python)
Créer un environnement de développement de langage C avec un conteneur
Préparer un environnement de langage de programmation pour l'analyse des données
J'ai essayé de créer un Dockerfile pour l'environnement de développement de Django
Configurer un serveur UDP en langage C
Créer un environnement Kubernetes pour le développement sur Ubuntu
Comment configurer un serveur de développement local
Configurer un environnement de développement Objective-C 2.0 sur Linux
Créer un environnement de développement mruby pour ESP32 (édition Linux)
Python: traitement du langage naturel
RNN_LSTM2 Traitement du langage naturel
Comment configurer un environnement Python à l'aide de pyenv
Créez un environnement de développement local pour Laravel6.X sur votre Mac
Comment créer un environnement de développement pour TensorFlow (1.0.0) (Mac)
Environnement de développement adapté à ArcPy
Configurer pour Mac (Python)
Traitement du langage naturel 1 Analyse morphologique
Traitement du langage naturel 3 Continuité des mots
[Pour organiser] Environnement de développement Python
Traitement du langage naturel 2 similitude de mots
[Memo] Construire un environnement de développement pour Django + Nuxt.js avec Docker
Création d'un environnement de développement pour les applications Android - Création d'applications Android avec Python
Configurons un modèle de prédiction de survie pour les passagers du Titanic
Comment configurer WSL2 sur Windows 10 et créer un environnement d'étude pour les commandes Linux
Je souhaite configurer un environnement de développement GUI avec Python ou Golang sur Mac
Étudiez le traitement du langage naturel avec Kikagaku
100 traitements du langage naturel frappent le chapitre 4 Commentaire
Créer un environnement de développement local pour Lambda + Python à l'aide de Serverless Framework
[Traitement du langage naturel] Prétraitement avec le japonais
[Pour les débutants] Django -Construction d'environnement de développement-
Créez facilement un modèle de traitement du langage naturel avec BERT + LightGBM + optuna
Logivan du langage artificiel et traitement du langage naturel (traitement du langage artificiel)
[Introduction à RasPi4] Construction de l'environnement, système de traitement du langage naturel mecab, etc. .. .. ♪
Options d'environnement de développement Python pour mai 2020
Configurer l'environnement Python sur CentOS
Paramètres Emacs pour l'environnement de développement Python
Dockerfile avec les bibliothèques nécessaires pour le traitement du langage naturel avec python
Articles en vrac pour ceux qui veulent commencer le traitement du langage naturel
Pourquoi l'expression distribuée des mots est-elle importante pour le traitement du langage naturel?
100 langues de traitement frappent 2020 "pour Google Colaboratory"
J'ai créé un environnement de développement pour Django 3.0 avec Docker, Docker-compose, Poetry
Se préparer à démarrer le traitement du langage naturel
Résumé de l'installation de l'analyseur de traitement du langage naturel
Comment configurer l'environnement de développement d'ev3dev [version Windows]
[DynamoDB] [Docker] Créer un environnement de développement pour DynamoDB et Django avec docker-compose
[Environnement de développement] Comment créer un ensemble de données proche de la base de données de production
3. Traitement du langage naturel avec Python 1-2. Comment créer un corpus: Aozora Bunko
Environnement de développement Python pour macOS utilisant venv 2016
Créez facilement un environnement de développement avec Laragon