Sprachverarbeitung 100 Klopfen 2015 ["Kapitel 6: Englische Textverarbeitung"](http: //www.cl.ecei) Dies ist die Aufzeichnung von 51. "Wörter ausschneiden" von .tohoku.ac.jp / nlp100 / # ch6). Diese Zeit ist technisch fast die gleiche wie beim letzten Mal. Ein einfaches Klopfen, das mit weniger als 10 Codezeilen endet.
Verknüpfung | Bemerkungen |
---|---|
051.Wörter ausschneiden.ipynb | Antwortprogramm GitHub Link |
100 Klicks Amateur-Sprachverarbeitung:51 | Kopieren Sie die Quelle vieler Quellteile und fügen Sie sie ein |
Art | Ausführung | Inhalt |
---|---|---|
OS | Ubuntu18.04.01 LTS | Es läuft virtuell |
pyenv | 1.2.16 | Ich benutze pyenv, weil ich manchmal mehrere Python-Umgebungen benutze |
Python | 3.8.1 | python3 auf pyenv.8.Ich benutze 1 Pakete werden mit venv verwaltet |
Ein Überblick über verschiedene grundlegende Technologien für die Verarbeitung natürlicher Sprache durch englische Textverarbeitung mit Stanford Core NLP.
Stanford Core NLP, Stemming, Teilwort-Tagging, Extraktion eindeutiger Ausdrücke, Co-Referenzanalyse, Abhängigkeitsanalyse, Klauselstrukturanalyse, S-Ausdruck
Führen Sie die folgende Verarbeitung für den englischen Text durch (nlp.txt).
Betrachten Sie Leerzeichen als Wortumbrüche, nehmen Sie 50 Ausgaben als Eingabe und geben Sie sie in Form eines Wortes pro Zeile aus. Geben Sie jedoch am Ende der Anweisung eine Leerzeile aus.
import re
with open('./050.result.txt') as file_in, \
open('./051.result.txt', 'w') as file_out:
for line in file_in:
if line != '\n':
line = re.sub(r'''
[\.|;|:|\?|!|,]* # . or ; or : or ? or ! or ,Ist 0 mal oder mehr
\s #Leer
''', '\n', line, flags = re.VERBOSE)
print(line, file=file_out)
Verarbeitung mit regulären Ausdrücken nach dem vorherigen Mal. Ersetzen Sie diesmal das Leerzeichen durch ein Zeilenumbruch. Diese Zeit ist einfacher, da es keine positiven Vorausschau- / Rückblick-Aussagen gibt. Auch wenn es vor dem Leerzeichen ein Symbolsystem gab, wurde es ersetzt.
Wenn das Programm ausgeführt wird, wird das folgende Ergebnis (Auszug aus den ersten 20 Zeilen) ausgegeben.
text:051.result.txt(Auszug aus den ersten 20 Zeilen)
Natural
language
processing
From
Wikipedia
the
free
encyclopedia
Natural
language
processing
(NLP)
is
a
field
of
computer
science