Sprachverarbeitung 100 Klopfen 2015 ["Kapitel 6: Englische Textverarbeitung"](http: //www.cl.ecei) Es ist eine Aufzeichnung von 50. "Satzumbruch" von .tohoku.ac.jp / nlp100 / # ch6). Im Vergleich zu den schwierigen 49 ist es sehr einfach und es fühlt sich wie eine kurze Pause an. Verwenden Sie reguläre Ausdrücke, um Anweisungen zu trennen.
Verknüpfung | Bemerkungen |
---|---|
050.Satzpause.ipynb | Antwortprogramm GitHub Link |
100 Klicks Amateur-Sprachverarbeitung:50 | Kopieren Sie die Quelle vieler Quellteile und fügen Sie sie ein |
Art | Ausführung | Inhalt |
---|---|---|
OS | Ubuntu18.04.01 LTS | Es läuft virtuell |
pyenv | 1.2.16 | Ich benutze pyenv, weil ich manchmal mehrere Python-Umgebungen benutze |
Python | 3.8.1 | python3 auf pyenv.8.Ich benutze 1 Pakete werden mit venv verwaltet |
Ein Überblick über verschiedene grundlegende Technologien für die Verarbeitung natürlicher Sprache durch englische Textverarbeitung mit Stanford Core NLP.
Stanford Core NLP, Stemming, Teilwort-Tagging, Extraktion eindeutiger Ausdrücke, Co-Referenzanalyse, Abhängigkeitsanalyse, Klauselstrukturanalyse, S-Ausdruck
Führen Sie die folgende Verarbeitung für den englischen Text durch (nlp.txt).
(. Oder; oder: oder? Oder!) → Leerzeichen → Betrachten Sie das Muster des englischen Kapitals als Satzbegrenzer und geben Sie das Eingabedokument in Form eines Satzes pro Zeile aus.
import re
with open('./nlp.txt') as file_in, \
open('./050.result.txt', 'w') as file_out:
for line in file_in:
if line != '\n':
line = re.sub(r'''
(?<=[\.|;|:|\?|!]) #Mit bejahendem Rückblick. or ; or : or ? or !
\s #Leer(Ersatzziel für Zeilenumbrüche)
(?=[A-Z]) #Englische Hauptstadt mit positivem Ausblick
''', '\n', line, flags = re.VERBOSE)
print(line.rstrip(), file=file_out)
Dieses Mal verwenden wir in regulären Ausdrücken positive Vorausschau- und Rückblick-Aussagen. Obwohl es nicht im Match-Ziel enthalten ist (diesmal Ersatzziel), wird es als Suchbedingung verwendet. Weitere Informationen finden Sie unter "Grundlagen und Tipps für reguläre Python-Ausdrücke, die von Null gelernt wurden" % E5% BE% 8C% E8% AA% AD% E3% 81% BF% E3% 82% A2% E3% 82% B5% E3% 83% BC% E3% 82% B7% E3% 83% A7% E3 Bitte beziehen Sie sich auf% 83% B3).
Wenn das Programm ausgeführt wird, werden die folgenden Ergebnisse (nur die ersten 10 Zeilen) ausgegeben.
text:050.result.txt(Nur die ersten 10 Zeilen)
Natural language processing
From Wikipedia, the free encyclopedia
Natural language processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages.
As such, NLP is related to the area of humani-computer interaction.
Many challenges in NLP involve natural language understanding, that is, enabling computers to derive meaning from human or natural language input, and others involve natural language generation.
History
The history of NLP generally starts in the 1950s, although work can be found from earlier periods.
In 1950, Alan Turing published an article titled "Computing Machinery and Intelligence" which proposed what is now called the Turing test as a criterion of intelligence.
The Georgetown experiment in 1954 involved fully automatic translation of more than sixty Russian sentences into English.
The authors claimed that within three or five years, machine translation would be a solved problem.
Recommended Posts