Beim Lesen des offiziellen Dokuments von NLTK (Natural Language Toolkit) habe ich versucht, die im Dokument häufig verwendeten Wörter zu extrahieren. Vorerst habe ich versucht, die Schlüsselwörter aus den Beispieldaten mit hoher Häufigkeit in der Reihenfolge von oben anzuzeigen, sodass ich sie im Memo belassen werde.
Wie Sie mit anderen Bibliotheken vertraut sind, installieren Sie zuerst pip.
$ pip install nltk
Der allgemeine Ablauf ist wie folgt: 1) Nach dem Herunterladen der Funktionen zum Teilen und Erfassen von Teilen, 2) Lesen des Beispieltextes, Konvertieren des gelesenen Textes in Teilen und 3) Erfassen der Teile und dann der Nomenklatur. Schließlich 4) nur die drei am häufigsten verwendeten Wörter anzeigen.
nltk_test.py
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
Laden Sie nach dem Import von nltk die Funktion herunter, die Teile vom Beamten trennt und trennt. Nach dem Herunterladen in der Umgebung ist kein Herunterladen mehr erforderlich. Wenn ich versuche, es herunterzuladen, erhalte ich eine Warnung wie "Paket punkt ist bereits aktuell!".
nltk_test.py
raw = open('sample.txt').read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
tokens_l = [w.lower() for w in tokens]
Bereiten Sie englische Aufsätze und lange Sätze im Voraus vor. (Sample.txt) Nachdem Sie dies gelesen haben, konvertieren Sie es mit word_tokenize ()
in separates Schreiben. Danach werden alle Kleinbuchstaben verwendet, um dasselbe zu erkennen, damit es dasselbe erkennt, wenn es einen Unterschied zwischen Klein- und Großbuchstaben gibt.
nltk_test.py
only_nn = [x for (x,y) in pos if y in ('NN')]
freq = nltk.FreqDist(only_nn)
Es werden nur die Teilwörter extrahiert, die NN (Substantiv) entsprechen, und die Häufigkeitsverteilung wird unter Verwendung von "FreDist" berechnet, um die Anzahl der häufigen Vorkommen zu zählen.
nltk_test.py
print(freq.most_common(3))
Die Anzeige wird mit der Funktion most_common ()
abgeschlossen, die die Anzahl der Vorkommen von Python zählt und von den meisten anzeigt.
Recommended Posts