Versuchen Sie, hochfrequente Wörter mit NLTK (Python) zu extrahieren.

Beim Lesen des offiziellen Dokuments von NLTK (Natural Language Toolkit) habe ich versucht, die im Dokument häufig verwendeten Wörter zu extrahieren. Vorerst habe ich versucht, die Schlüsselwörter aus den Beispieldaten mit hoher Häufigkeit in der Reihenfolge von oben anzuzeigen, sodass ich sie im Memo belassen werde.

Entwicklungsumgebung

NLTK-Installation

Wie Sie mit anderen Bibliotheken vertraut sind, installieren Sie zuerst pip.

$ pip install nltk

Hochfrequente Wörter extrahieren

Der allgemeine Ablauf ist wie folgt: 1) Nach dem Herunterladen der Funktionen zum Teilen und Erfassen von Teilen, 2) Lesen des Beispieltextes, Konvertieren des gelesenen Textes in Teilen und 3) Erfassen der Teile und dann der Nomenklatur. Schließlich 4) nur die drei am häufigsten verwendeten Wörter anzeigen.

Laden Sie die erforderlichen Funktionen herunter

nltk_test.py


import nltk

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

Laden Sie nach dem Import von nltk die Funktion herunter, die Teile vom Beamten trennt und trennt. Nach dem Herunterladen in der Umgebung ist kein Herunterladen mehr erforderlich. Wenn ich versuche, es herunterzuladen, erhalte ich eine Warnung wie "Paket punkt ist bereits aktuell!".

Holen Sie sich Beispieltext und konvertieren Sie in Split

nltk_test.py


raw = open('sample.txt').read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

tokens_l = [w.lower() for w in tokens]

Bereiten Sie englische Aufsätze und lange Sätze im Voraus vor. (Sample.txt) Nachdem Sie dies gelesen haben, konvertieren Sie es mit word_tokenize () in separates Schreiben. Danach werden alle Kleinbuchstaben verwendet, um dasselbe zu erkennen, damit es dasselbe erkennt, wenn es einen Unterschied zwischen Klein- und Großbuchstaben gibt.

Extrahieren Sie nur die Nomenklatur, nachdem Sie Teilwörter erhalten haben

nltk_test.py


only_nn = [x for (x,y) in pos if y in ('NN')]

freq = nltk.FreqDist(only_nn)

Es werden nur die Teilwörter extrahiert, die NN (Substantiv) entsprechen, und die Häufigkeitsverteilung wird unter Verwendung von "FreDist" berechnet, um die Anzahl der häufigen Vorkommen zu zählen.

Top 3 anzeigen

nltk_test.py


print(freq.most_common(3))

Die Anzeige wird mit der Funktion most_common () abgeschlossen, die die Anzahl der Vorkommen von Python zählt und von den meisten anzeigt.

Recommended Posts

Versuchen Sie, hochfrequente Wörter mit NLTK (Python) zu extrahieren.
Versuchen Sie, Excel mit Python (Xlwings) zu betreiben.
Versuchen Sie es mit Tweepy [Python2.7]
(Python) Versuchen Sie, eine Webanwendung mit Django zu entwickeln
[Python] Versuchen Sie, Tkinters Leinwand zu verwenden
Versuchen Sie, Python selbst zu verstehen
Versuchen Sie es mit Kubernetes Client -Python-
Starten Sie mit Python zu Selen
Versuchen Sie es mit GUI, PyQt in Python
Versuchen Sie, eine Excel-Datei mit Python (Pandas / XlsxWriter) zu betreiben
So installieren Sie Python mit Anaconda
Versuchen Sie, Facebook mit Python zu betreiben
Versuchen Sie es mit der Pleasant-API (Python / FastAPI).
Versuchen Sie, mit Python3 eine Zeichenfolge aus einem Bild zu extrahieren
Versuchen Sie es mit LevelDB mit Python (plyvel)
Versuchen Sie, Nagios mit pynag zu konfigurieren
Versuchen Sie, Online-Familien-Mahjong mit Python zu analysieren (TEIL 1: Daten aufnehmen)
Versuchen Sie, Trace in Python zu berechnen
Versuchen Sie, die cloudmonkey-CLI in python3 -1 zu konvertieren
Versuchen Sie, sich mit Python auf Ihrem PC automatisch bei Netflix anzumelden
Versuchen Sie, Statistiken mit e-Stat abzurufen
Extrahieren Sie die Targz-Datei mit Python
Versuchen Sie es mit der Aktions-API von Python argparse
Versuchen Sie, mit Python (1) eine Erfassungssoftware zu erstellen, die so genau wie möglich ist.
Versuchen Sie es mit dem Python Cmd-Modul
Versuchen Sie die Frequenzsteuerungssimulation mit Python
Versuchen Sie es mit LeapMotion mit Python
Versuchen Sie es mit Amazon DynamoDB von Python
Versuchen Sie es mit Pythons Webframework Django (1) - Von der Installation bis zum Serverstart
Versuchen Sie, ein festgelegtes Problem der High-School-Mathematik mit Python zu lösen
[Python] [Word] [python-docx] Versuchen Sie, mit python-docx eine Vorlage für einen Wortsatz in Python zu erstellen
Versuchen Sie, die Datenbank unter IBM i mit Python + JDBC mithilfe von JayDeBeApi zu starten
Versuchen Sie, Farbfilme mit Python zu reproduzieren
[Python] Extrahiere △△ mit maximalem ○○ mit Pandas
Von Python bis zur Verwendung von MeCab (und CaboCha)
Versuchen Sie eine Formel mit Σ mit Python
Einführung in die diskrete Ereignissimulation mit Python # 1
Versuchen Sie, die Kraken-API mit Python zu verwenden
Dialogflow (früher: API.AI) Verwenden Sie das Python SDK #dialogflow
Versuchen Sie, Python mit Google Cloud-Funktionen zu verwenden
Versuchen Sie, die Fusionsbewegung mit AnyMotion zu erkennen
Melden Sie sich mit Anforderungen in Python bei Slack an
Speichern Sie BigQuery-Tabellen mithilfe von Python in GCS
Python Amateur versucht die Liste zusammenzufassen ①
Einführung in die diskrete Ereignissimulation mit Python # 2
Versuchen Sie es mit Junos 'On-Box Python # 1 Op Script
Versuchen Sie Python
Erste Schritte zum Testen von Google CloudVision in Python
Versuchen Sie, Oni Mai Tsuji Miserable mit Python zu implementieren
Versuchen Sie, Metriken über Python DogStatsD an datadog zu senden
Berechnen wir das statistische Problem mit Python
3,14 π Tag, versuchen Sie also, in Python auszugeben
Versuchen Sie, mit django-import-export csv-Daten zu django hinzuzufügen
Versuchen Sie automatisch, Enum in Python 3.6 automatisch zu bewerten
#Monte Carlo-Methode zum Ermitteln des Umfangsverhältnisses mit Python
Vorgehensweise zur Verwendung der WEG-API von TeamGant (mit Python)
Versuchen Sie, das Problem der Python-Klassenvererbung zu lösen
Versuchen Sie, Blueprint with Flask zu verwenden, um Controller zu trennen
Einführung in 4 Möglichkeiten zur Überwachung von Python-Anwendungen mit Prometheus
Ich möchte mit Python eine E-Mail von Google Mail senden.