Dans l'environnement d'apprentissage automatique (Ubuntu 16.04 LTS) lancé par GCE, j'ai d'abord installé un logiciel d'analyse morphologique afin d'effectuer le traitement du langage naturel. Cependant, il a fallu beaucoup de temps pour l'installer, je vais donc le laisser sous forme de mémorandum.
Peut être installé uniquement avec l'installation de pip, janome est omis
Installer Mecab et dictionnaire (version UTF-8)
sudo apt-get install mecab mecab-ipadic-utf8
Si vous ne les incluez pas, mecab-python ne s'installera pas correctement
sudo apt-get install libmecab-dev sudo apt-get install build-essential
Enfin, installez la bibliothèque pour appeler Mecab depuis pthon3.x
pip install mecab-python3
J'ai quelques packages nécessaires et je ne peux pas les installer correctement, JUMAN ++ J'ai entendu dire que la capacité d'analyse morphologique est plus que Mecab, donc je voulais absolument l'installer, et j'ai vérifié diverses choses et cela a fonctionné avec la procédure suivante
Installez les packages requis Cela prend un certain temps
sudo apt install checkinstall auto-apt ccache sudo auto-apt update sudo apt install google-perftools libgoogle-perftools-dev libboost-dev
Téléchargez et décompressez JUMAN ++
wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz tar xJvf jumanpp-1.01.tar.xz
Puis installez JUMAN ++
auto-apt run ./configure CC="ccache gcc" CFLAGS="-O3" CXX="ccache g++" CXXFLAGS="-O3" make sudo checkinstall
Désormais, lorsque la version sortira comme suit, l'installation de JUMAN ++ est terminée avec succès
jumanpp -v
JUMAN++ 1.01
L'installation continue d'utiliser JUMAN ++ avec Python
Installez dans l'ordre JUMAN → KNP → PyKNP, en vous référant à Utilisation de JUMAN ++ depuis Python.
Cependant, n'est-il pas enregistré dans la bibliothèque Python uniquement pour ce qui précède? Il ressemble, alors enfin exécutez ce qui suit pour terminer
pip install ./pyknp-0.3
Dans l'analyse morphologique, essayez de mettre en œuvre le «gouvernement étranger» qui est souvent utilisé dans Mecab, JUMAN ++, Janome
import MeCab
mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("Gouvernement des étrangers"))
Nomenclature étrangère Gaikoku étrangère-Général
Nomenclature de carotte carotte ginseng-Général
Administration Seiken Administration Nominal-Général
EOS
from pyknp import Jumanpp
jumanpp = Jumanpp()
r=jumanpp.analysis("Gouvernement des étrangers")
for m in r.mrph_list():
print(m.midasi)
Pays étrangers
Homme
Participation
Droite
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize('Gouvernement des étrangers')
for token in tokens:
print(token)
Nomenclature étrangère,Général,*,*,*,*,Pays étrangers,Gaikoku,Gaikoku
Ginseng substantif,Général,*,*,*,*,carotte,carotte,carotte
Nomenclature d'administration,Général,*,*,*,*,administration,Seiken,Seiken
Après tout, JUMAN ++ est bon.
Text mining avec Python ① Analyse morphologique (re: version Linux)
[Comment installer JUMAN ++ sur Ubuntu 16.04 LTS] (http://qiita.com/SUZUKI_Masaya/items/29c81d037cdf7d37b900)
[Comment installer un logiciel sur Ubuntu en utilisant auto-apt, checkinstall, ccache] (http://qiita.com/SUZUKI_Masaya/items/bd03f39e20a1a8f7f4f6#%E5%BF%85%E8%A6%81%E3%81%AA%E3%83%91%E3%83%83%E3%82%B1%E3%83%BC%E3%82%B8%E3%81%AE%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB)
Utilisation de JUMAN ++ depuis Python
Recommended Posts