Verwenden Sie Polyglot (Dokument).
Es wurde bestätigt, dass Folgendes mit Python 3.8.5 funktioniert. Zuerst,
pip install numpy
pip install polyglot
pip install six
pip install pycld2
pip install morfessor
pip install pyicu
Installieren Sie in der Reihenfolge von. Wenn ModuleNotFoundError Sie jedoch auffordert, "icu" zu setzen
pip install icu
nicht
pip install pyicu
Lassen. Wenn Sie versuchen, "icu" zu installieren und zu verwenden, sollte der Fehler "Name xxx kann nicht importiert werden" angezeigt werden. Beachten Sie, dass es sich um ein anderes Element handelt.
Wenn dies nicht funktioniert, lesen Sie Fehler beim Installieren von pip pyicu.
Schauen Sie sich das offizielle Teil der Sprachkennzeichnung an und schlagen Sie den Teiletext nach.
from polyglot.text import Text
blob = "You never fail until you stop trying."
tokens = Text(blob)
print(tokens.pos_tags)
Dies sollte Ihnen den Teil jedes Wortes im Satz geben, aber Sie sollten einen Fehler erhalten.
ValueError: This resource is available in the index but not downloaded, yet. Try to run
polyglot download embeddings2.en
damit
git clone https://github.com/web64/nlpserver.git
Danach in der 14. Zeile von nlpserver.py
app.config['JSON_AS_ASCII'] = False
Nach dem Hinzufügen
polyglot download embeddings2.en
polyglot download pos2.en
Wird eingefügt. Dieser Teil wurde geschrieben in Polyglot-Dateien können nicht abgerufen werden.
Jetzt, da Sie Englisch analysieren können, funktioniert der vorherige Code:
from polyglot.text import Text
blob = "You never fail until you stop trying."
tokens = Text(blob)
print(tokens.pos_tags)
Als Ergebnis von
[('You', 'PRON'), ('never', 'ADV'), ('fail', 'VERB'), ('until', 'SCONJ'), ('you', 'PRON'), ('stop', 'VERB'), ('trying', 'VERB'), ('.', 'PUNCT')]
Das Ergebnis ist in einer Zeile schwer zu erkennen. Verwenden Sie daher in der letzten Zeile "pprint"
import pprint
pprint.pprint(tokens.pos_tags)
Durch
[('You', 'PRON'),
('never', 'ADV'),
('fail', 'VERB'),
('until', 'SCONJ'),
('you', 'PRON'),
('stop', 'VERB'),
('trying', 'VERB'),
('.', 'PUNCT')]
Sie können wie z. Die Namen der Teile lauten wie folgt. Die Abkürzung und Beschreibung (Englisch) stammen aus Teil der Sprachkennzeichnung.
Kurzbezeichnung | Erläuterung(Englisch) | Erläuterung(japanisch) |
---|---|---|
ADJ | adjective | Adjektiv |
ADP | adposition | Konjunkt |
ADV | adverb | Adverb |
AUX | auxiliary verb | Hilfsverb |
CONJ | coordinating conjunction | Koordinatenverbindung |
DET | determiner | Begrenzte Wörter |
INTJ | interjection | Zwischenruf |
NOUN | noun | Substantiv |
NUM | numeral | Ziffer |
PART | particle | Unveränderlich |
PRON | pronoun | Gleichbedeutend |
PROPN | proper noun | Proprietäre Nomenklatur |
PUNCT | punctuation | Interpunktion |
SCONJ | subordinating conjunction | Untergeordnete Verbindung |
SYM | symbol | Symbol |
VERB | verb | Verb |
X | other | Andere |
Installationsreferenz https://qiita.com/sawada/items/528da0b22546045122b2
Referenz zu den Merkmalen von Polyglot http://lab.astamuse.co.jp/entry/try-polyglot
Recommended Posts