[PYTHON] 100 Sprachverarbeitung Knock-56: Co-Referenz-Analyse

Sprachverarbeitung 100 Klopfen 2015 ["Kapitel 6: Englische Textverarbeitung"](http: //www.cl.ecei) Dies ist die Aufzeichnung von 56. "Co-Referenzanalyse" von .tohoku.ac.jp / nlp100 / # ch6). Bis zum letzten Mal in Kapitel 6 war das Niveau der vorbereitenden Übungen einfach, aber es wird bald etwas, das Sie zum Nachdenken anregt.

Referenzlink

Verknüpfung Bemerkungen
056.Co-Referenzanalyse.ipynb Antwortprogramm GitHub Link
100 Klicks Amateur-Sprachverarbeitung:56 Kopieren Sie die Quelle vieler Quellteile und fügen Sie sie ein
Stanford Core NLP Beamter Schauen Sie sich zuerst die Stanford Core NLP-Seite an

Umgebung

Art Ausführung Inhalt
OS Ubuntu18.04.01 LTS Es läuft virtuell
pyenv 1.2.16 Ich benutze pyenv, weil ich manchmal mehrere Python-Umgebungen benutze
Python 3.8.1 python3 auf pyenv.8.Ich benutze 1
Pakete werden mit venv verwaltet
Stanford CoreNLP 3.9.2 Ich habe es vor einem Jahr installiert und erinnere mich nicht im Detail ...
Es war das Neueste auch nach einem Jahr, also habe ich es so benutzt, wie es war
openJDK 1.8.0_242 Ich habe das JDK, das installiert wurde, für andere Zwecke verwendet

Kapitel 6: Verarbeiten von englischem Text

Inhalt des Studiums

Ein Überblick über verschiedene grundlegende Technologien für die Verarbeitung natürlicher Sprache durch englische Textverarbeitung mit Stanford Core NLP.

Stanford Core NLP, Stemming, Teilwort-Tagging, Extraktion eindeutiger Ausdrücke, Co-Referenzanalyse, Abhängigkeitsanalyse, Klauselstrukturanalyse, S-Ausdruck

Klopfe an den Inhalt

Führen Sie die folgende Verarbeitung für den englischen Text durch (nlp.txt).

56. Co-Referenzanalyse

Ersetzen Sie auf der Grundlage der Ergebnisse der Co-Referenzanalyse von Stanford Core NLP den Referenzausdruck (Erwähnung) im Satz durch den repräsentativen Referenzausdruck (repräsentative Erwähnung). Achten Sie beim Ersetzen jedoch darauf, dass der ursprüngliche Referenzausdruck verstanden wird, z. B. "Repräsentativer Referenzausdruck (Referenzausdruck)".

Problemergänzung (über "gemeinsame Referenz")

Coreference scheint sich auf dieselbe Richtlinie in der Nomenklatur zu beziehen. Das Bild auf Stanford CoreNLP Official ist leicht zu verstehen. image.png Der Mechanismus von Stanford Core NLP ist in Deterministic Coreference Resolution System beschrieben.

Antworten

Antwortprogramm [056. Co-Referenzanalyse.ipynb](https://github.com/YoheiFukuhara/nlp100/blob/master/06.%E8%8B%B1%E8%AA%9E%E3%83%86%E3 % 82% AD% E3% 82% B9% E3% 83% 88% E3% 81% AE% E5% 87% A6% E7% 90% 86 / 056.% E5% 85% B1% E5% 8F% 82% E7% 85% A7% E8% A7% A3% E6% 9E% 90.ipynb)

import xml.etree.ElementTree as ET

#Analysieren Sie die XML-Datei des Analyseergebnisses
root = ET.parse('./nlp.txt.xml')

#Erstellen Sie ein Wörterbuch mit Standortinformationen, in dem die Koreferenzen aufgelistet und durch repräsentative Referenzausdrücke ersetzt werden
#Das Wörterbuch ist{(sentence id,Starten Sie die Token-ID), (Token-ID beenden,Repräsentativer Referenzausdruck)}...
replaces = {}
for coreference in root.iterfind('./document/coreference/coreference'):

    #Erwerb eines repräsentativen Referenzausdrucks
    representative = coreference.findtext('./mention[@representative="true"]/text')

    #Erwähnen Sie andere Aufzählungen als repräsentative Referenzausdrücke, die dem Wörterbuch hinzugefügt wurden
    for mention in coreference.iterfind('./mention'):
        if mention.get('representative') == None:
            sentence_id = mention.findtext('sentence')
            start = mention.findtext('start')
            end = int(mention.findtext('end')) - 1 #Ende taumeln
            
            #Aktualisieren Sie ohne Bedenken, auch wenn es bereits im Wörterbuch enthalten ist(Gewinnen Sie danach)
            replaces[(sentence_id, start)] = (end, representative)

#Wird angezeigt, während der Text durch Ersetzen ersetzt wird
for sentence in root.iterfind('./document/sentences/sentence'):
    sentence_id = sentence.get('id')

    for token in sentence.iterfind('./tokens/token'):
        token_id = token.get('id')

        #Ersatzstart
        if (sentence_id, token_id) in replaces:

            #Extrahieren Sie die Endposition und den repräsentativen Referenzausdruck aus dem Wörterbuch
            (end, representative) = replaces[(sentence_id, token_id)]

            #Repräsentativer Referenzausdruck + Klammern einfügen(end=''Keine Zeilenumbrüche)
            print('「' + representative + '」 (', end='')

        #Token-Ausgabe(end=''Keine Zeilenumbrüche)
        print(token.findtext('word'), end='')

        #Fügen Sie am Ende des Austauschs schließende Klammern ein(end=''Keine Zeilenumbrüche)
        if int(token_id) == end:
            print(')', end='')
            end = 0
            
        #Ende des Satzes(Zeitraum)Es ist mir egal, welcher Speicherplatz zuvor hinzugefügt wurde(end=''Keine Zeilenumbrüche)
        print(' ', end='')

    print()     #Zeilenumbrüche in Satzeinheiten

Kommentar beantworten

XML-Dateipfad

Das Folgende ist eine Zuordnung von XML-Dateipfaden und Co-Referenzinformationen. Es ist kein Fehler, dass die gleichen Koordinaten in der 3. und 4. Schicht liegen (obwohl die 3. Schicht normalerweise wahrscheinlich "Koreferenzen" sind ...). Wenn das Attribut "repräsentativ" im "Erwähnung" -Tag der 5. Schicht wahr ist, handelt es sich um einen "repräsentativen Referenzausdruck". Andere sind Überweiser.

Ausgabe 1. Ebene Zweites Level Drittes Level 4. Stufe 5. Stufe 6. Stufe
Co-Referenzsatz id root document coreference coreference mention sentence
Beginn der Co-Referenz-Token-ID root document coreference coreference mention start
Ende der Co-Referenz-Token-ID root document coreference coreference mention end
Co-Referenztext root document coreference coreference mention text

Die XML-Datei lautet [GitHub](https://github.com/YoheiFukuhara/nlp100/blob/master/06.%E8%8B%B1%E8%AA%9E%E3%83%86%E3%82%AD% E3% 82% B9% E3% 83% 88% E3% 81% AE% E5% 87% A6% E7% 90% 86 / nlp.txt.xml).

xml:nlp.txt.xml(Auszug)


<root>
  <document>
    <docId>nlp.txt</docId>
    <sentences>

--Unterlassung--

    <coreference>
      <coreference>
        <mention representative="true">
          <sentence>1</sentence>
          <start>7</start>
          <end>16</end>
          <head>12</head>
          <text>the free encyclopedia Natural language processing -LRB- NLP -RRB-</text>
        </mention>
        <mention>
          <sentence>1</sentence>
          <start>17</start>
          <end>22</end>
          <head>18</head>
          <text>a field of computer science</text>
        </mention>

Erstellen eines Referenzausdruckswörterbuchs

Wir haben eine Wörterbuchvariable mit dem Namen "ersetzt" erstellt, um die Daten zu speichern. {(Satz-ID, Start-Token-ID), (End-Token-ID, repräsentativer Referenzausdruck)} Eingabe von Daten. Möglicherweise enthält das Wörterbuch doppelte Schlüssel, aber wir verwenden die Methode des zweiten Gewinns (der später kommende Datensatz überschreibt den früheren Datensatz).

python


#Erstellen Sie ein Wörterbuch mit Standortinformationen, in dem die Koreferenzen aufgelistet und durch repräsentative Referenzausdrücke ersetzt werden
#Das Wörterbuch ist{(sentence id,Starten Sie die Token-ID), (Token-ID beenden,Repräsentativer Referenzausdruck)}...
replaces = {}
for coreference in root.iterfind('./document/coreference/coreference'):

    #Erwerb eines repräsentativen Referenzausdrucks
    representative = coreference.findtext('./mention[@representative="true"]/text')

    #Erwähnen Sie andere Aufzählungen als repräsentative Referenzausdrücke, die dem Wörterbuch hinzugefügt wurden
    for mention in coreference.iterfind('./mention'):
        if mention.get('representative') == None:
            sentence_id = mention.findtext('sentence')
            start = mention.findtext('start')
            end = int(mention.findtext('end')) - 1 #Ende taumeln
            
            #Aktualisieren Sie ohne Bedenken, auch wenn es bereits im Wörterbuch enthalten ist(Gewinnen Sie danach)
            replaces[(sentence_id, start)] = (end, representative)

Anweisungsausgabe

Wenn ich danach beim Lesen des Textes des Satzteils einen Referenzausdruck lese, ersetze ich ihn und füge Klammern hinzu.

python


#Wird angezeigt, während der Text durch Ersetzen ersetzt wird
for sentence in root.iterfind('./document/sentences/sentence'):
    sentence_id = sentence.get('id')

    for token in sentence.iterfind('./tokens/token'):
        token_id = token.get('id')

        #Ersatzstart
        if (sentence_id, token_id) in replaces:

            #Extrahieren Sie die Endposition und den repräsentativen Referenzausdruck aus dem Wörterbuch
            (end, representative) = replaces[(sentence_id, token_id)]

            #Repräsentativer Referenzausdruck + Klammern einfügen(end=''Keine Zeilenumbrüche)
            print('「' + representative + '」 (', end='')

        #Token-Ausgabe(end=''Keine Zeilenumbrüche)
        print(token.findtext('word'), end='')

        #Fügen Sie am Ende des Austauschs schließende Klammern ein(end=''Keine Zeilenumbrüche)
        if int(token_id) == end:
            print(')', end='')
            end = 0
            
        #Ende des Satzes(Zeitraum)Es ist mir egal, welcher Speicherplatz zuvor hinzugefügt wurde(end=''Keine Zeilenumbrüche)
        print(' ', end='')

    print()     #Zeilenumbrüche in Satzeinheiten

Ausgabeergebnis (Ausführungsergebnis)

Wenn das Programm ausgeführt wird, werden die folgenden Ergebnisse ausgegeben.

Ausgabeergebnis


Natural language processing From Wikipedia , the free encyclopedia Natural language processing -LRB- NLP -RRB- is a field of computer science) , artificial intelligence , and linguistics concerned with the interactions between computers and human -LRB- natural -RRB- languages . 
As such , 「NLP」 (NLP) is related to the area of humani-computer interaction . 
Many challenges in 「NLP」 (NLP) involve natural language understanding , that is , enabling computers to derive meaning from human or natural language input , and others involve natural language generation . 
History The history of 「NLP」 (NLP) generally starts in the 1950s , although work can be found from earlier periods . 
In 1950 , Alan Turing published an article titled `` Computing Machinery and Intelligence '' which proposed what is now called the Turing test as a criterion of intelligence . 
The Georgetown experiment in 1954 involved fully automatic translation of more than sixty Russian sentences into English . 
The authors claimed that within three or five years , machine translation would be a solved problem . 
However , real progress was much slower , and after the ALPAC report in 1966 , which found that ten year long research had failed to fulfill the expectations , funding for 「machine translation」 (machine translation) was dramatically reduced . 
Little further research in 「machine translation」 (machine translation) was conducted until the late 1980s , when the first statistical machine translation systems were developed . 
Some notably successful NLP systems developed in the 1960s were SHRDLU , a natural language system working in restricted `` blocks worlds '' with restricted vocabularies , and ELIZA , a simulation of a Rogerian psychotherapist , written by Joseph Weizenbaum between 1964 to 「1966」 (1966) . 
Using almost no information about human thought or emotion , ELIZA sometimes provided a startlingly human-like interaction . 
When the `` patient '' exceeded the very small knowledge base , 「ELIZA」 (ELIZA) might provide a generic response , for example , responding to `` My head hurts '' with `` Why do you say 「My head」 (your head) hurts ? '' 
. 
During the 1970s many programmers began to write ` conceptual ontologies ' , which structured real-world information into computer-understandable data . 
Examples are MARGIE -LRB- Schank , 1975 -RRB- , SAM -LRB- Cullingford , 1978 -RRB- , PAM -LRB- Wilensky , 「1978」 (1978) -RRB- , TaleSpin -LRB- Meehan , 1976 -RRB- , QUALM -LRB- Lehnert , 1977 -RRB- , Politics -LRB- Carbonell , 1979 -RRB- , and Plot Units -LRB- Lehnert 1981 -RRB- . 
During this time , many chatterbots were written including PARRY , Racter , and Jabberwacky . 
Up to the 1980s , most 「NLP」 (NLP) systems were based on complex sets of hand-written rules . 
Starting in the late 1980s , however , there was a revolution in 「NLP」 (NLP) with the introduction of machine learning algorithms for language processing . 
This was due to both the steady increase in computational power resulting from Moore 's Law and the gradual lessening of the dominance of Chomskyan theories of linguistics -LRB- e.g. transformational grammar -RRB- , whose theoretical underpinnings discouraged the sort of corpus linguistics that underlies the machine-learning approach to language processing . 
Some of the earliest-used machine learning algorithms , such as decision trees , produced systems of hard if-then rules similar to existing hand-written rules . 
However , Part of speech tagging introduced the use of Hidden Markov Models to NLP , and increasingly , research has focused on statistical models , which make soft , probabilistic decisions based on attaching real-valued weights to the features making up the input data . 
The cache language models upon which many speech recognition systems now rely are examples of such statistical models . 
Such models are generally more robust when given unfamiliar input , especially input that contains errors -LRB- as is very common for real-world data -RRB- , and produce more reliable results when integrated into a larger system comprising multiple subtasks . 
Many of the notable early successes occurred in the field of machine translation , due especially to work at IBM Research , where successively more complicated statistical models were developed . 
「many speech recognition systems」 (These systems) were able to take advantage of existing multilingual textual corpora that had been produced by the Parliament of Canada and the European Union as a result of laws calling for the translation of all governmental proceedings into all official languages of the corresponding systems of government . 
However , most other systems depended on corpora specifically developed for the tasks implemented by these systems , which was -LRB- and often continues to be -RRB- a major limitation in the success of 「many speech recognition systems」 (these systems) . 
As a result , a great deal of research has gone into methods of more effectively learning from limited amounts of data . 
Recent research has increasingly focused on unsupervised and semi-supervised learning algorithms . 
Such algorithms are able to learn from data that has not been hand-annotated with the desired answers , or using a combination of annotated and non-annotated data . 
Generally , this task is much more difficult than supervised learning , and typically produces less accurate results for a given amount of input data . 
However , there is an enormous amount of non-annotated data available -LRB- including , among other things , the entire content of the World Wide Web -RRB- , which can often make up for the inferior results . 
NLP using machine learning Modern NLP algorithms are based on machine learning , especially statistical machine learning . 
「The machine-learning paradigm」 (The paradigm of machine learning) is different from that of most prior attempts at language processing . 
Prior implementations of language-processing tasks typically involved the direct hand coding of large sets of rules . 
The machine-learning paradigm calls instead for using general learning algorithms - often , although not always , grounded in statistical inference - to automatically learn such rules through the analysis of large corpora of typical real-world examples . 
A corpus -LRB- plural , `` corpora '' -RRB- is a set of documents -LRB- or sometimes , individual sentences -RRB- that have been hand-annotated with the correct values to be learned . 
Many different classes of machine learning algorithms have been applied to 「NLP」 (NLP) tasks . 
「machine learning algorithms」 (These algorithms) take as input a large set of `` features '' that are generated from 「the input data」 (the input data) . 
Some of 「machine learning algorithms」 (the earliest-used algorithms) , such as decision trees , produced systems of hard if-then rules similar to the systems of hand-written rules that were then common . 
Increasingly , however , research has focused on statistical models , which make soft , probabilistic decisions based on attaching real-valued weights to each input feature . 
Such models have the advantage that 「Such models」 (they) can express the relative certainty of many different possible answers rather than only one , producing more reliable results when such a model is included as a component of a larger system . 
Systems based on machine-learning algorithms have many advantages over hand-produced rules : The learning procedures used during machine learning automatically focus on the most common cases , whereas when writing rules by hand it is often not obvious at all where the effort should be directed . 
Automatic learning procedures can make use of statistical inference algorithms to produce models that are robust to unfamiliar input -LRB- e.g. containing words or structures that have not been seen before -RRB- and to erroneous input -LRB- e.g. with misspelled words or words accidentally omitted -RRB- . 
Generally , handling such input gracefully with hand-written rules -- or more generally , creating systems of hand-written rules that make soft decisions -- extremely difficult , error-prone and time-consuming . 
Systems based on automatically learning 「hand-written rules --」 (the rules) can be made more accurate simply by supplying more input data . 
However , systems based on hand-written rules can only be made more accurate by increasing the complexity of the rules , which is a much more difficult task . 
In particular , there is a limit to the complexity of systems based on hand-crafted rules , beyond which 「many speech recognition systems」 (the systems) become more and more unmanageable . 
However , creating more data to input to machine-learning systems simply requires a corresponding increase in the number of man-hours worked , generally without significant increases in the complexity of the annotation process . 
The subfield of 「NLP」 (NLP) devoted to learning approaches is known as Natural Language Learning -LRB- NLL -RRB- and 「NLP」 (its) conference CoNLL and peak body SIGNLL are sponsored by ACL , recognizing also their links with Computational Linguistics and Language Acquisition . 
When the aims of computational language learning research is to understand more about human language acquisition , or psycholinguistics , 「NLL」 (NLL) overlaps into the related field of Computational Psycholinguistics . 

Recommended Posts

100 Sprachverarbeitung Knock-56: Co-Referenz-Analyse
100 Sprachverarbeitung Knock-57: Abhängigkeitsanalyse
100 Sprachverarbeitungsklopfen (2020): 38
100 Sprachverarbeitung klopfen 00 ~ 02
100 Sprachverarbeitung Knock 2015 Kapitel 5 Abhängigkeitsanalyse (40-49)
100 Sprachverarbeitung Knock 2020 Kapitel 4: Morphologische Analyse
100 Sprachverarbeitung Knock Kapitel 4: Morphologische Analyse
100 Sprachverarbeitung Knock 2020 Kapitel 5: Abhängigkeitsanalyse
100 Sprachverarbeitung Knock-59: Analyse der S-Formel
100 Language Processing Knock 2015 Kapitel 4 Morphologische Analyse (30-39)
100 Sprachverarbeitung klopfen 2020 [00 ~ 39 Antwort]
100 Sprachverarbeitung klopfen 2020 [00-79 Antwort]
100 Sprachverarbeitung klopfen 2020 [00 ~ 69 Antwort]
100 Sprachverarbeitung Knock 2020 Kapitel 1
100 Amateur-Sprachverarbeitungsklopfen: 17
100 Sprachverarbeitung klopfen 2020 [00 ~ 49 Antwort]
100 Sprachverarbeitung Knock-52: Stemming
100 Sprachverarbeitung Knock Kapitel 1
100 Amateur-Sprachverarbeitungsklopfen: 07
100 Sprachverarbeitung Knock 2020 Kapitel 2
100 Amateur-Sprachverarbeitungsklopfen: 47
100 Sprachverarbeitung Knock-53: Tokenisierung
100 Amateur-Sprachverarbeitungsklopfen: 97
100 Sprachverarbeitung klopfen 2020 [00 ~ 59 Antwort]
100 Amateur-Sprachverarbeitungsklopfen: 67
100 Sprachverarbeitungsklopfen mit Python 2015
100 Sprachverarbeitung Knock-51: Wortausschnitt
100 Sprachverarbeitung Knock-58: Extraktion von Taple
100 Sprachverarbeitung Knock-50: Satzumbruch
100 Sprachverarbeitung Knock Kapitel 2 (Python)
Verarbeitung natürlicher Sprache 1 Morphologische Analyse
100 Sprachverarbeitung Knock-25: Vorlagenextraktion
Sprachverarbeitung 100 Knock-87: Wortähnlichkeit
Lösen von 100 Sprachverarbeitungsklopfen 2020 (01. "Patatokukashi")
100 Amateur-Sprachverarbeitungsklopfen: Zusammenfassung
100 Sprachverarbeitung Knock-30 (unter Verwendung von Pandas): Lesen der Ergebnisse der morphologischen Analyse
100 Sprachverarbeitung Knock 2020 Kapitel 2: UNIX-Befehle
100 Sprachverarbeitungsklopfen mit Python (Kapitel 1)
100 Sprachverarbeitung Knock Kapitel 1 in Python
100 Sprachverarbeitungsklopfen 2020: Kapitel 4 (morphologische Analyse)
100 Sprachverarbeitung Knock 2020 Kapitel 9: RNN, CNN
[Sprachverarbeitung 100 Schläge 2020] Kapitel 5: Abhängigkeitsanalyse
100 Sprachverarbeitung Knock-76 (mit Scicit-Learn): Beschriftung
100 Sprachverarbeitung Knock-55: Extraktion eindeutiger Ausdrücke
Ich habe versucht, 100 Sprachverarbeitung klopfen 2020: Kapitel 3
100 Sprachverarbeitung Knock-82 (Kontextwort): Kontextextraktion
100 Sprachverarbeitungsklopfen mit Python (Kapitel 3)
100 Sprachverarbeitungsklopfen: Kapitel 1 Vorbereitungsbewegung
100 Sprachverarbeitung Knock 2020 Kapitel 6: Maschinelles Lernen
Sprachverarbeitung 100 knock-86: Wortvektoranzeige
100 Sprachverarbeitung Knock 2020 Kapitel 10: Maschinelle Übersetzung (90-98)
100 Sprachverarbeitung Knock-28: Entfernen des MediaWiki-Markups
100 Sprachverarbeitung Knock 2020 Kapitel 7: Word Vector
Python-Anfänger versucht 100 Sprachverarbeitung klopfen 2015 (05 ~ 09)
Sprachverarbeitung 100 Knocks-31 (mit Pandas): Verben
Ich habe versucht, 100 Sprachverarbeitung klopfen 2020: Kapitel 1
100 Sprachverarbeitung Knock 2020 Kapitel 1: Vorbereitende Bewegung
100 Sprachverarbeitung Knock-73 (mit Scikit-Learn): Lernen
100 Sprachverarbeitung Knock Kapitel 1 von Python
100 Sprachverarbeitung Knock 2020 Kapitel 3: Reguläre Ausdrücke
[Sprachverarbeitung 100 Schläge 2020] Kapitel 4: Morphologische Analyse