Utilisez mecab-ipadic-neologd de Python

Chose que tu veux faire

--Utilisez MeCab pour l'analyse morphologique - http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

--Utiliser un nouveau dictionnaire de mots - https://github.com/neologd/mecab-ipadic-neologd/ --Utiliser en combinaison avec d'autres modules dans les scripts Python

environnement

Python 2.7 Utilisez Conda.

$ conda create -n py27con python=2.7 anaconda
$ conda info -e
$ source ~/.pyenv/versions/miniconda3-3.16.0/envs/py27con/bin/activate py27con

mecab-ipadic J'utiliserai mecab-ipadic-neologd plus tard, donc je le mettrai en UTF-8

$ cd ~/path/to/mecab-ipadic-2.7.0-20070801/
$ make clean
$ ./configure --with-charset=utf8
$ make
$ make install

mecab-ipadic-neologd

$ cd ~/path/to/mecab-ipadic-neologd/
$ bin/install-mecab-ipadic-neologd 

mecab-python

Liaisons MeCab Python

$ pip install https://mecab.googlecode.com/files/mecab-python-0.996.tar.gz

Contrôle de fonctionnement

test.py


# -*- coding: utf-8 -*-
import MeCab
m = MeCab.Tagger(' -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

text = '''
"Idol Master Cinderella Girls" (L'IDOLME@STER CINDERELLA GIRLS) est "THE IDOLM" développé et exploité par Bandai Namco Entertainment (anciennement Bandai Namco Games) et Cygames.@Un jeu social exclusivement pour les terminaux mobiles avec le motif du monde de STER.
'''
print(m.parse(text))

Le texte est [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%A4%E3%83%89%E3%83%AB%E3%83%9E%E3 % 82% B9% E3% 82% BF% E3% 83% BC_% E3% 82% B7% E3% 83% B3% E3% 83% 87% E3% 83% AC% E3% 83% A9% E3% 82 À partir de% AC% E3% 83% BC% E3% 83% AB% E3% 82% BA).

$ python test.py
"Symbole,Ouvrir les parenthèses,*,*,*,*,『,『,『
Idol Master Cinderella Girls Nominal,Nomenclature propriétaire,Général,*,*,*,Idolmaster Cendrillon Filles,Idolmaster Cendrillon Filles,Idolmaster Cendrillon Filles
"Symbole,Fermé entre parenthèses,*,*,*,*,』,』,』
(Symbole,Ouvrir les parenthèses,*,*,*,*,(,(,(
THE IDOLM@Nomenclature STER CINDERELLA GIRLS,Nomenclature propriétaire,Général,*,*,*,THE IDOLM@STER CINDERELLA GIRLS,Idolmaster Cendrillon Filles,Idolmaster Cendrillon Filles
) Symbole,Fermé entre parenthèses,*,*,*,*,),),)
Est un assistant,Assistance,*,*,*,*,Est,C,sensationnel
, Symbole,Point de lecture,*,*,*,*,、,、,、
Bandai Namco Entertainment Noun,Nomenclature propriétaire,Général,*,*,*,Divertissement Bandai Namco,Divertissement Bandai Namco,Divertissement Bandai Namco
(Symbole,Ouvrir les parenthèses,*,*,*,*,(,(,(
Ancien préfixe,Connexion de nom,*,*,*,*,Vieux,Kyu,queue
Bandai Namco Games Noun,Nomenclature propriétaire,Général,*,*,*,BANDAI NAMCO Games,Jeux Bandai Namco,Jeux Bandai Namco
) Symbole,Fermé entre parenthèses,*,*,*,*,),),)
Et des mots auxiliaires,Assistants parallèles,*,*,*,*,Quand,À,À
Nomenclature Cygames,Nomenclature propriétaire,Général,*,*,*,Cygames,Jeux Sai,Jeux Sai
Est un assistant,Assistant de cas,Général,*,*,*,Mais,Géorgie,Géorgie
Nomenclature de développement,Changer de connexion,*,*,*,*,développement de,Kaihatsu,Kaihatsu
· Symbole,Général,*,*,*,*,・,・,・
Nomenclature de gestion,Changer de connexion,*,*,*,*,Opération,Unei,Unei
Verbe,Indépendance,*,*,Sahen / Suru,Forme basique,Faire,Suru,Suru
"Symbole,Ouvrir les parenthèses,*,*,*,*,『,『,『
THE IDOLM@STER substantif,Nomenclature propriétaire,Général,*,*,*,THE IDOLM@STER,Maître des idoles,Maître des idoles
"Symbole,Fermé entre parenthèses,*,*,*,*,』,』,』
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Nomenclature de la vision du monde,Nomenclature propriétaire,Général,*,*,*,Vue du monde,Sekaikan,Sekaikan
Auxiliaire,Assistant de cas,Général,*,*,*,À,Wo,Wo
Motif substantif,Général,*,*,*,*,motif,motif,motif
Et des mots auxiliaires,Assistant de cas,Général,*,*,*,Quand,À,À
Verbe,Indépendance,*,*,Sahen / Suru,Forme basique,Faire,Suru,Suru
Terminal mobile substantif,Nomenclature propriétaire,Général,*,*,*,Terminal mobile,Keitaitanmatsu,Keitaitanmatsu
Nomenclature dédiée,Changer de connexion,*,*,*,*,désigné,Senyou,Senyo
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Nomenclature des jeux sociaux,Nomenclature propriétaire,Général,*,*,*,jeu social,jeu social,jeu social
.. symbole,Phrase,*,*,*,*,。,。,。
EOS

Au fait, si vous omettez -d / usr / local / lib / mecab / dic / mecab-ipadic-neologd et regardez la différence, vous pouvez voir que le nouveau dictionnaire de mots fonctionne bien (principalement unique). nom).

Où je l'ai mis en attente

Liste des problèmes fréquents:

Je voulais le faire avec 3,5 si possible, mais je ne pouvais pas m'échapper parce que j'en étais accro, alors je l'ai fait avec 2,7 pour le moment.

Recommended Posts

Utilisez mecab-ipadic-neologd de Python
Utilisez MySQL depuis Python
Utiliser MySQL depuis Python
Utilisez BigQuery depuis Python.
Utiliser MySQL depuis Anaconda (python)
Utilisez l'API e-Stat de Python
Utiliser la PNL Stanford Core à partir de Python
Utiliser de force Google Translate à partir de python
Utilisez l'API kabu Station® de Python
Utiliser Azure Blob Storage à partir de Python
Utilisez l'API Flickr de Python
Utiliser le modèle entraîné fastText de Python
Utiliser l'API Google Analytics de Python
sql à sql
MeCab de Python
Utiliser le type de données PostgreSQL (jsonb) à partir de Python
Utiliser le groupe d'API d'apprentissage automatique A3RT de Python
Utiliser l'API Google Cloud Vision de Python
Utiliser Django à partir d'un script Python local
Utilisation des fonctions C ++ de python avec pybind11
Touchez MySQL depuis Python 3
Utilisez mecab-ipadic-neologd avec igo-python
Utilisez config.ini avec Python
Exploitez Filemaker depuis Python
[Python] Utiliser JSON avec Python
Firebase: utilisez Cloud Firestore et Cloud Storage depuis Python
Utiliser des dates en Python
Accéder à bitcoind depuis python
Changements de Python 3.0 à Python 3.5
Changements de Python 2 à Python 3.0
Python depuis ou import
Utiliser Valgrind avec Python
Utiliser mecab avec Python 3
Utiliser le client LiquidTap Python ③
Exécutez Python à partir d'Excel
Utiliser DynamoDB avec Python
[Bash] Obtenez la puissance de python de bash en utilisant la documentation ici
Envelopper C avec Cython pour une utilisation à partir de Python
Exécuter des commandes depuis Python
Utilisez Python 3.8 avec Anaconda
Utilisez Python dans votre environnement depuis Win Automation
Utilisation méthodique du format [Python]
Utiliser python avec docker
Je veux utiliser le solveur ceres de python
Faire fonctionner LXC depuis Python
Utiliser le client LiquidTap Python ②
Manipuler riak depuis python
Forcer Python depuis Fortran
Utilisons différentes versions de SQLite3 de Python3!
Exécuter la commande depuis Python
Envelopper C ++ avec Cython pour une utilisation à partir de Python
Utilisez le module Python nghttp2 de Homebrew de Python de pyenv
[Python] Lire depuis Stdin
Utilisez Tor pour vous connecter depuis urllib2 [Python] [Mac]
Python: décompressez depuis l'entrée standard en utilisant zipfile
Utiliser le client LiquidTap Python ①
Je voulais utiliser la bibliothèque Python de MATLAB
Commençons Python à partir d'Excel. Je n'utilise pas VBA.
Aplatir à l'aide du rendement Python de
Appeler CPLEX depuis Python (DO cplex)
Utilisons Python Janome facilement