[PYTHON] J'ai écrit un lecteur de corpus qui lit les résultats de l'analyse MeCab

Mecab. py a été écrit.

mecab.py

On suppose que NLTK et nltk_data ont été installés et téléchargés. Placez les données sous `` nltk_data / corpora '' ou créez un lien symbolique.

import nltk
corpora_path = nltk.data.find('corpora/test')
"""
your data must be stored or linked in nltk/corpora
"""

fileids = r'.*\.mecab'
"""
:param corpus name: regular expression or list of corpus name.
:type corpus: list or strings
"""

reader = MeCabCorpusReader(corpora_path, fileids, encoding='utf8')
print reader.raw()
print ', '.join(reader.words())
for w, t in reader.tagged_words():
    print w, t
for para in reader.paras():
    for sent in para:
        for word in sent:
            print word
for para in reader.tagged_paras():
    for sent in para:
        for (word, pos) in sent:
            print word, pos   

`` corpora / test '' est un répertoire contenant les fichiers analysés par MeCab et a l'extension mecab. Le contenu du fichier ressemble à ceci.

Sumomo substantif,Général,*,*,*,*,Sumomo,Sumomo,Sumomo
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Dont nomenclature,Non indépendant,Avocat possible,*,*,*,domicile,Uchi,Uchi
EOS

La sortie est

raw()
Sumomo substantif,Général,*,*,*,*,Sumomo,Sumomo,Sumomo
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Dont nomenclature,Non indépendant,Avocat possible,*,*,*,domicile,Uchi,Uchi
EOS

words()
Sumomo,Aussi,Aussiも,Aussi,Aussiも,de,domicile

tagged_words()
Infos sur Sumomo:nom,Général,*,*,*,*,Sumomo,Sumomo,Sumomo
Aussi info:Particule,Assistance,*,*,*,*,Aussi,Mo,Mo
Informations sur la cuisse:nom,Général,*,*,*,*,Les pêches,pêche,pêche
Aussi info:Particule,Assistance,*,*,*,*,Aussi,Mo,Mo
Informations sur la cuisse:nom,Général,*,*,*,*,Les pêches,pêche,pêche
Info:Particule,syndicat,*,*,*,*,de,Non,Non
D'informations:nom,Non indépendant,Avocat possible,*,*,*,domicile,Uchi,Uchi

paras()
Sumomo
Aussi
Les pêches
Aussi
Les pêches
de
domicile

tagged_paras()
Infos sur Sumomo:nom,Général,*,*,*,*,Sumomo,Sumomo,Sumomo
Aussi info:Particule,Assistance,*,*,*,*,Aussi,Mo,Mo
Informations sur la cuisse:nom,Général,*,*,*,*,Les pêches,pêche,pêche
Aussi info:Particule,Assistance,*,*,*,*,Aussi,Mo,Mo
Informations sur la cuisse:nom,Général,*,*,*,*,Les pêches,pêche,pêche
Info:Particule,syndicat,*,*,*,*,de,Non,Non
D'informations:nom,Non indépendant,Avocat possible,*,*,*,domicile,Uchi,Uchi

Recommended Posts

J'ai écrit un lecteur de corpus qui lit les résultats de l'analyse MeCab
J'ai écrit un script qui divise l'image en deux
Créez un bot qui ne renvoie que le résultat de l'analyse morphologique avec MeCab avec Discord
J'ai fait un bot mou qui m'informe de la température
J'ai essayé l'analyse d'image du livre de score de tir à l'arc (un livret qui enregistre les résultats des coups). (Google Colaboratory)
J'ai fait un calendrier qui met à jour automatiquement le calendrier de distribution de Vtuber
L'histoire du développement d'une application WEB qui génère automatiquement des copies de capture [MeCab]
J'ai essayé l'analyse par grappes de la carte météo
Un mémo que j'ai écrit un tri rapide en Python
L'histoire de l'adresse IPv6 que je souhaite conserver au minimum
J'ai écrit un module PyPI qui étend le style de paramètre dans le module sqlite3 de Python
J'ai écrit un script pour relancer la montre gulp qui mourra bientôt
[Discode Bot] J'ai essayé de créer un Bot qui me dit la valeur de race de Pokemon
J'ai créé une application Twitter qui décrypte les caractères de pré-connexion avec heroku (échec)
L'échange de random.randint (a, b) et np.random.randint (a, b) a donné exactement le contraire des résultats de l'analyse!
[Python / C] J'ai créé un appareil qui fait défiler sans fil l'écran d'un PC à distance.
J'ai fait un calendrier qui met à jour automatiquement le calendrier de distribution de Vtuber (édition Google Calendar)
Une histoire qui réduit l'effort de fonctionnement / maintenance
[Python] Un programme qui compte le nombre de vallées
#Une fonction qui renvoie le code de caractère d'une chaîne de caractères
Générer cette forme du fond d'une bouteille pour animaux de compagnie
Un mémo que j'ai touché au magasin de données avec python
Une histoire qui a analysé la livraison de Nico Nama.
[Python] Un programme qui compare les positions des kangourous.
La fin des débutants en programmation (mon patron) qui ont écrit le code motivé par les résultats qui apportent la programmation, pas d'un point de vue technique
J'ai écrit une classe qui facilite l'écriture en spécifiant les paroles de la partie lors de l'utilisation de Mecab avec python
J'ai écrit un script Python qui exporte tous mes articles à l'aide de l'API Qiita v2
J'ai créé une classe pour obtenir le résultat de l'analyse par MeCab dans ndarray avec python
[Python] J'ai écrit un test de "Streamlit" qui facilite la création d'applications de visualisation.
J'ai écrit un doctest dans "J'ai essayé de simuler la probabilité d'un jeu de bingo avec Python"
Un outil qui transforme automatiquement le gacha de Soshage
Faisons l'analyse des données de naufrage du Titanic comme ça
J'ai écrit la grammaire de base de Python dans Jupyter Lab
J'ai écrit un programme de démonstration pour la transformation linéaire d'une matrice
J'ai écrit le fonctionnement de base de Seaborn dans Jupyter Lab
J'ai essayé l'analyse morphologique du commentaire général du putain de jeu de l'année
J'ai fait une fonction pour vérifier le modèle de DCGAN
Analyse des données basée sur les résultats des élections du gouverneur de Tokyo (2020)
J'ai fait une image ponctuelle de l'image d'Irasutoya. (partie 1)
J'ai essayé un peu le comportement de la fonction zip
J'ai écrit le fonctionnement de base de Numpy dans Jupyter Lab.
J'ai fait une image ponctuelle de l'image d'Irasutoya. (partie 2)
J'ai écrit le fonctionnement de base de matplotlib dans Jupyter Lab
Script Python qui compare le contenu de deux répertoires
J'ai essayé de créer un site qui permet de voir facilement les informations mises à jour d'Azure
Une histoire sur l'écriture d'AWS Lambda et de devenir un peu accro aux valeurs par défaut des arguments Python
J'ai créé un robot Line qui devine le sexe et l'âge d'une personne à partir de l'image
Envoie le résultat de l'analyse morphologique avec Mecab vers un navigateur WEB compatible avec le serveur Sakura / UTF-8
Réutiliser les résultats du clustering
Lors de l'incrémentation de la valeur d'une clé qui n'existe pas
pandas Récupère le nom d'une colonne contenant un caractère spécifique
[Python] J'ai écrit la route du typhon sur la carte en utilisant le folium
Une formule qui calcule simplement l'âge à partir de la date de naissance
[Introduction à StyleGAN] J'ai joué avec "The Life of a Man" ♬
J'ai écrit le code pour écrire le code Brainf * ck en python
Une fonction qui mesure le temps de traitement d'une méthode en python