Traitement du langage 100 coups 2015 ["Chapitre 4: Analyse morphologique"](http: //www.cl.ecei.tohoku) .ac.jp / nlp100 / # ch4) 34ème "A B" enregistrement. Cette fois, c'est un défi pour combiner les informations de ligne, donc ce n'est pas aussi facile qu'auparavant. Je ne suis pas doué pour les pandas et SQL. Cependant, ce n'est pas difficile car il ne s'agit que d'un processus en boucle.
Lien | Remarques |
---|---|
034."B de A".ipynb | Lien GitHub du programme de réponse |
100 coups de traitement du langage amateur:34 | Copiez et collez la source de nombreuses pièces source |
Officiel MeCab | Page MeCab à regarder en premier |
type | version | Contenu |
---|---|---|
OS | Ubuntu18.04.01 LTS | Il fonctionne virtuellement |
pyenv | 1.2.16 | J'utilise pyenv car j'utilise parfois plusieurs environnements Python |
Python | 3.8.1 | python3 sur pyenv.8.J'utilise 1 Les packages sont gérés à l'aide de venv |
Mecab | 0.996-5 | apt-Installer avec get |
Dans l'environnement ci-dessus, j'utilise les packages Python supplémentaires suivants. Installez simplement avec pip ordinaire.
type | version |
---|---|
pandas | 1.0.1 |
Appliquer l'analyseur morphologique MeCab au roman «Je suis un chat» de Natsume Soseki et obtenir les statistiques des mots du roman.
Analyse morphologique, MeCab, paroles de partie, fréquence d'occurrence, loi de Zipf, matplotlib, Gnuplot
Utilisation de MeCab pour le texte (neko.txt) du roman de Natsume Soseki "Je suis un chat" Effectuez une analyse morphologique et enregistrez le résultat dans un fichier appelé neko.txt.mecab. Utilisez ce fichier pour implémenter un programme qui répond aux questions suivantes.
Pour les problèmes 37, 38 et 39, utilisez matplotlib ou Gnuplot.
Extraire la nomenclature dans laquelle deux nomenclatures sont reliées par "non".
import pandas as pd
def read_text():
# 0:Type de surface(surface)
# 1:Partie(pos)
# 2:Sous-classification des paroles des parties 1(pos1)
# 7:Forme basique(base)
df = pd.read_table('./neko.txt.mecab', sep='\t|,', header=None,
usecols=[0, 1, 2, 7], names=['surface', 'pos', 'pos1', 'base'],
skiprows=4, skipfooter=1 ,engine='python')
# EOS,symbole,Laisser un blanc
return df
df = read_text()
POS_TARGET = 'nom'
for index in df['surface'].index:
#Pas de logique particulière sur les première et dernière lignes
if df['surface'][index] == 'de' \
and df['pos'][index-1] == POS_TARGET \
and df['pos'][index+1] == POS_TARGET:
print(index, '\t', df['surface'][index-1] + 'de' + df['surface'][index+1])
#Limité car il y en a beaucoup
if index > 2000:
break
Contrairement à la frappe précédente, les EOS, les symboles et les lignes vides ne sont pas supprimés. C'est parce que je voulais en faire une condition que «B de A» soit continu, y compris la clarté à la fin des phrases et des symboles.
python
def read_text():
# 0:Type de surface(surface)
# 1:Partie(pos)
# 2:Sous-classification des paroles des parties 1(pos1)
# 7:Forme basique(base)
df = pd.read_table('./neko.txt.mecab', sep='\t|,', header=None,
usecols=[0, 1, 2, 7], names=['surface', 'pos', 'pos1', 'base'],
skiprows=4, skipfooter=1 ,engine='python')
# EOS,symbole,Laisser un blanc
return df
Boucle sur l'indice de la série Pandas. Et il juge si les lignes avant et après sont de la nomenclature.
python
for index in df['surface'].index:
#Pas de logique particulière sur les première et dernière lignes
if df['surface'][index] == 'de' \
and df['pos'][index-1] == POS_TARGET \
and df['pos'][index+1] == POS_TARGET:
print(index, '\t', df['surface'][index-1] + 'de' + df['surface'][index+1])
Lorsque le programme est exécuté, les résultats suivants sont affichés. Comme il y en a tellement, je ne vois que 2000 lignes.
Résultat de sortie
118 sa paume
144 sur la paume
151 Visage d'étudiant
197 visage qui devrait être
235 au milieu du visage
248 Dans le trou
292 La paume de l'étudiant
294 Derrière la paume
382 quoi
421 mère essentielle
478 sur la paille
484 À l'intérieur de Sasahara
498 Enfin des pensées
516 Devant l'étang
658 Enfin chose
729 Merci à Kazuki
742 Trou de clôture
752 Les trois cheveux du voisin
Passage à 758 heures
806 Grâce momentanée
842 À l'intérieur de la maison
858 Son élève
Humains autres que 861
892 Étudiant précédent
958 Votre chance
1029 Sansan no San
1046 Démangeaisons thoraciques
1068 Femme de ménage
1089 Maître
1121 sous le nez
1130 Mon visage
1192 Ma maison
1208 Mon mari
1249 Trucs pour la maison
1281 dont
1300 son étude
Sur 1326 livres
1341 Couleur de peau
Sur 1402
1411 son tous les soirs
Autre que 1516
1588 à côté de mon mari
1608 son genou
1610 sur le genou
1659 Expérience
1665 Sur le bol de riz
1671 Sur le 炬 燵
1700 d'ici
1702 Notre petit compagnon
1704 Petit lit
1747 au milieu d'eux
1773 Un des petits compagnons
1826 cas de nerf
1830 Maître sexuel
1839 Pièce suivante
1919 Égoïste
1953 I
2000 Entre les planches de la cuisine
Recommended Posts