Sprachverarbeitung 100 Schläge 2015 ["Kapitel 4: Morphologische Analyse"](http: //www.cl.ecei.tohoku) Es ist eine Aufzeichnung von 36. "Häufigkeit des Auftretens von Wörtern" von .ac.jp / nlp100 / # ch4). Diesmal ist es super einfach, weil Pandas gut darin sind, die Anzahl der Auftritte zu zählen und zu sortieren.
Verknüpfung | Bemerkungen |
---|---|
036.Häufigkeit des Auftretens von Wörtern.ipynb | Antwortprogramm GitHub Link |
100 Klicks Amateur-Sprachverarbeitung:36 | Kopieren Sie die Quelle vieler Quellteile und fügen Sie sie ein |
MeCab Official | MeCab-Seite zum ersten Mal |
Art | Ausführung | Inhalt |
---|---|---|
OS | Ubuntu18.04.01 LTS | Es läuft virtuell |
pyenv | 1.2.16 | Ich benutze pyenv, weil ich manchmal mehrere Python-Umgebungen benutze |
Python | 3.8.1 | python3 auf pyenv.8.Ich benutze 1 Pakete werden mit venv verwaltet |
Mecab | 0.996-5 | apt-Installieren Sie mit get |
In der obigen Umgebung verwende ich die folgenden zusätzlichen Python-Pakete. Einfach mit normalem Pip installieren.
Art | Ausführung |
---|---|
pandas | 1.0.1 |
Wenden Sie den morphologischen Analysator MeCab auf Natsume Sosekis Roman "Ich bin eine Katze" an und erhalten Sie die Statistik der Wörter im Roman.
Morphologische Analyse, MeCab, Teiltexte, Häufigkeit des Auftretens, Zipf-Gesetz, matplotlib, Gnuplot
Verwenden von MeCab für den Text (neko.txt) von Natsume Sosekis Roman "Ich bin eine Katze" Führen Sie eine morphologische Analyse durch und speichern Sie das Ergebnis in einer Datei namens neko.txt.mecab. Verwenden Sie diese Datei, um ein Programm zu implementieren, das die folgenden Fragen beantwortet.
Verwenden Sie für die Probleme 37, 38, 39 matplotlib oder Gnuplot.
Finden Sie die Wörter, die im Satz erscheinen, und ihre Häufigkeit des Auftretens, und ordnen Sie sie in absteigender Reihenfolge der Häufigkeit des Auftretens an.
import pandas as pd
def read_text():
# 0:Oberflächentyp(surface)
# 1:Teil(pos)
# 2:Teiltexte Unterklassifizierung 1(pos1)
# 7:Grundform(base)
df = pd.read_table('./neko.txt.mecab', sep='\t|,', header=None,
usecols=[0, 1, 2, 7], names=['surface', 'pos', 'pos1', 'base'],
skiprows=4, skipfooter=1 ,engine='python')
return df[(df['pos'] != 'Leer') & (df['surface'] != 'EOS') & (df['pos'] != 'Symbol')]
df = read_text()
df['surface'].value_counts()[:30]
#Hilfswörter und Hilfsverben ausschließen
df[~df['pos'].str.startswith('Helfen')]['surface'].value_counts()[:30]
[19. Klopfen "Berechnen Sie die Häufigkeit des Auftretens der Zeichenfolge in der ersten Spalte jeder Zeile und ordnen Sie sie in absteigender Reihenfolge der Häufigkeit des Auftretens an"](https://qiita.com/FukuharaYohei/items/87f0413b87c6109e8ca4#019%E5%90%84% E8% A1% 8C% E3% 81% AE1% E3% 82% B3% E3% 83% A9% E3% 83% A0% E7% 9B% AE% E3% 81% AE% E6% 96% 87% E5% AD% 97% E5% 88% 97% E3% 81% AE% E5% 87% BA% E7% 8F% BE% E9% A0% BB% E5% BA% A6% E3% 82% 92% E6% B1% 82% E3% 82% 81% E5% 87% BA% E7% 8F% BE% E9% A0% BB% E5% BA% A6% E3% 81% AE% E9% AB% 98% E3% 81% 84% E9% A0% 86% E3% 81% AB% E4% B8% A6% E3% 81% B9% E3% 82% 8Bipynb) Verwenden Sie value_counts
zum Löschen und Sortieren. Es ist praktisch, standardmäßig in absteigender Reihenfolge zu sortieren.
python
df['surface'].value_counts()[:30]
Das Ausschließen von Hilfs- und Hilfsverben fügt nur eine Bedingung hinzu. Ich habe es zu einer negativen Bedingung für "str.startswith" gemacht, weil die einzigen Teile, die mit "Assistent" beginnen, wahrscheinlich Assistenten und Hilfsverben sind.
python
#Hilfswörter und Hilfsverben ausschließen
df[~df['pos'].str.startswith('Helfen')]['surface'].value_counts()[:30]
Wenn das Programm ausgeführt wird, werden die folgenden Ergebnisse ausgegeben. Die Top 30 für alle Ziele. Natürlich ist es unmöglich, den Inhalt nur mit Hilfswörtern und Hilfsverben abzuleiten.
Ausgabeergebnis(Alle Ziele)
9109
6697
Ist 6384
Bis 6147
6068
Und 5476
Ist 5259
3916
Bei 3774
Auch 2433
2272
2264
Nicht 2254
Ab 2001
1705
1579
Oder 1446
Hmm 1416
1249
Sache 1177
Bis 1033
986
974
Dinge 971
Sie 955
Sagen Sie 937
Meister 928
U 922
Yo 687
673
Name: surface, dtype: int64
Hilfswörter und Hilfsverben wurden von der Ausgabe ausgeschlossen. Es ist viel einfacher zu schließen, dass "Ich bin eine Katze", als alles ins Visier zu nehmen.
Ausgabeergebnis(Hilfswörter und Hilfsverben ausschließen)
2201
1597
1249
Sache 1177
986
Dinge 971
Sie 955
Sagen Sie 937
Meister 928
Es gibt 723
Nicht 708
Yo 687
Hmm 667
Dieser 635
Gehen Sie 598
Das 560
Was 518
I 477
Person 449
Ja 448
443
Werden Sie 410
403
Diese 397
Es 370
Kommen 367
Siehe 349
Labyrinth 343
Zu 327
Zeit 316
Name: surface, dtype: int64