Aidemy　2020/10/29

Einführung

Hallo, es ist ja! Ich bin eine knusprige Literaturschule, aber ich war an den Möglichkeiten der KI interessiert, also ging ich zur AI-spezialisierten Schule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag zur Verarbeitung natürlicher Sprache. Freut mich, dich kennenzulernen.

Dieser Artikel ist eine Zusammenfassung dessen, was Sie in "Aidemy" "in Ihren eigenen Worten" gelernt haben. Es kann Fehler und Missverständnisse enthalten. Bitte beachten Sie.

Was diesmal zu lernen ・ Was ist die Verarbeitung natürlicher Sprache? ・ Über den Textkorpus ・ Über die morphologische Analyse

Über die Verarbeitung natürlicher Sprache

・ __ "Natürliche Sprache" __ ist eine gesprochene / geschriebene Sprache, die Menschen normalerweise verwenden. Wenn Sie einen Computer verarbeiten lassen, wird dies als "Verarbeitung natürlicher Sprache" bezeichnet. -Die vom Menschen verwendete natürliche Sprache kann mehrdeutige Ausdrücke enthalten, die Computer nicht "interpretieren" können __.

Damit der Computer die natürliche Sprache verarbeiten kann, muss die natürliche Sprache in numerisch konvertiert werden. -Natürliche Sprachverarbeitung wird für maschinelle Übersetzung, Spracherkennung, Informationsabruf usw. verwendet.

Korpus

-__ Corpus__ sind __ Daten, die Dokumente in natürlicher Sprache zusammenfassen __. Es unterstützt viele Sprachen und es gibt auch eine japanische Version. ・ Dieses Mal verwenden wir einen "Chat-Dialog-Korpus". -Die Daten sind in 100 Sätze von Chat-Daten __ "init100" __ Verzeichnis und 1046 Sätze von Chat-Daten __ "rest1046" __ Verzeichnis unterteilt. Diesmal "init100" Verwenden Sie die eine. -Die Dateistruktur wird im __ "JSON-Format" __ bereitgestellt. Es ist unterteilt in "Fragendaten (menschliche Sprache)" und "Antwortdaten (Systemsprache)". -Diese Daten werden im __ "Turns" __ - Schlüssel in der Datei gespeichert. Von diesen ist __ "Äußerung" __ die Sprachdaten, __ "Sprecher" __ ist __ "U" __, die Person, und __ "S" __ ist die Systemsprache.

Zusätzlich wird in den Sprachdaten des Systems das Flag "Zusammenbruch" __ gesetzt. Hiermit wird festgestellt, ob die Sprache des Systems natürlich ist. __ "O" steht für natürlich, "T" steht für unnatürlich und "X" steht für extrem unnatürlich (gebrochen) __. Dieses Flag wird für eine Antwort mehrmals vergeben. ・ Im Korpus

Korpuslesen / Datenextraktion

-Das Lesen des Korpus erfolgt mit __ "open ()" __, genau wie beim Lesen einer normalen Datei. Da die Datei vom Typ JSON ist, lesen Sie sie mit __ "json.load ()" __. -Daten können extrahiert werden, indem der Schlüssel der Daten angegeben wird, die Sie für die gelesene Datei erfassen möchten.

・ Gesprächs-ID abrufen スクリーンショット 2020-10-18 13.14.23.png

#Extrahieren und zeigen Sie den Sprecher und den Inhalt der Äußerung an
for turn in json_data['turns']:
    print("{}:{}".format(turn['speaker'],turn['utterance']))

Extraktion von Analysedaten

・ Von hier aus analysieren wir "natürliche Konversation". Das heißt, da eine Aufschlüsselung verwendet wird, werden zuerst __ "Sprachinhalt der Personen" und "System-Sprachflag" __ erfasst.

Wenn zu diesem Zeitpunkt Daten erfasst werden, werden doppelte Daten generiert. Verwenden Sie daher __drop_duplicates () __, um die doppelten Daten zu löschen. Da zu diesem Zeitpunkt die Dataframe-Daten übergeben werden können, müssen die erfassten Daten in df konvertiert werden.

·Code スクリーンショット 2020-10-18 14.30.51.png

Im obigen Code erhalten Sie zuerst die "Sprachumdrehungsnummer", die "Sprecher-ID" und den "Sprachinhalt" aus "Umdrehungen", in denen die Äußerungsdaten auf die gleiche Weise wie im vorherigen Abschnitt gespeichert sind, und dann aus dem "Sprachinhalt (Äußerung)". Wir haben "Human Speech Content" und "System Speech Flag" erworben und in eine Liste mit dem Namen label_list aufgenommen. Schließlich wird es in einen DataFrame umgewandelt und doppelte Daten werden gelöscht.

Morphologische Analyse

Was ist morphologische Analyse?

-__ Morphologische Analyse __ ist eine der Methoden zur Verarbeitung natürlicher Sprache und eine Methode zum Teilen eines Satzes durch Wörter (morphologische Elemente) und zum Klassifizieren von Teilen. • Zum Beispiel "Hallo, es ist Ja!" Wenn "Hallo /, / I / ist / Ngayope / ist /!" Wird.

Es gibt Ausführungswerkzeuge für morphologische Analysen wie MeCab und Janome.

MeCab ・ Führen Sie eine morphologische Analyse mit MeCab durch. Die Verwendung ist wie folgt. Für k mit __k = MeCab.Tagger ('Ausgabemodus angeben') __ Ausführen als __k.parse ('Zeichenkette für morphologische Analyse') __. Insbesondere ist es wie folgt.

スクリーンショット 2020-10-18 15.06.54.png

Wenn Sie in Tagger () nichts über den einzustellenden Modus angeben, wird dieser wie oben ausgegeben. Wenn Sie jedoch __ "'-Owakati'" __ festlegen, können Sie jedes Wort (Formularelement) einfach durch ein Leerzeichen trennen. __ Ausgabe als "separates Schreiben" __.
Darüber hinaus gibt es Modi wie "'-Oyomi'", bei denen nur der Messwert ausgegeben wird.

Janome -Wenn Sie mit Janome eine morphologische Analyse durchführen, können Sie ein Objekt mit __t = Tokenizer () __ erstellen und es dann mit __t.tokenize ('Zeichenkette für morphologische Analyse') __ ausführen. -Bei separatem Schreiben setzen Sie in diesem zweiten Argument "wakati = True".

Als weitere Funktion können Sie nach Teilen filtern. ・ Wenn Sie nur ein bestimmtes Teil erhalten möchten, wählen Sie __POSKeepFilter (['Teil des Teils']) __ ・ Wenn Sie ein bestimmtes Teil ausschließen möchten, wählen Sie __POSStopFilter (['Teil des Teils']) __

-Wenn __Analyzer () __ verwendet wird, können die Verarbeitung bis zu diesem Punkt und die Vorverarbeitung des Textes für die morphologische Analyse gleichzeitig durchgeführt werden. -Das zu übergebende Argument ist __ (Vorverarbeitung, Tokenizer-Objekt (t), Filter) __. -Der Vorverarbeitungsteil enthält __UnicodeNormalizeCharFilter () __, das die Notationsschwankung von Unicode-Zeichenfolgen normalisiert. Übrigens führt dies eine Normalisierung durch, wie das Vereinheitlichen von Alphabeten voller Breite und Katakana zu halber Breite.

Manchmal kann das erste Argument auch dann nicht weggelassen werden, wenn keine Vorverarbeitung durchgeführt wird. Schreiben Sie in einem solchen Fall nur "__ [] __".
Setzen Sie für die verbleibenden zwei Argumente das oben genannte Objekt und den Filter.
Führen Sie Analyzer () wie folgt aus.

Textnormalisierung

Da die morphologische Analyse vom verwendeten Wörterbuch abhängt, kann die Analyse unnatürlich werden, wenn Wörter angezeigt werden, die nicht im Wörterbuch enthalten sind. ・ In solchen Fällen gibt es zwei Arten von Gegenmaßnahmen. Das erste besteht darin, ein Benutzerwörterbuch vorzubereiten. (Es wird hier jedoch nicht erklärt) -Eine andere Methode ist "Textnormalisierung". Dies dient dazu, unnötige Symbole im Text zu löschen und die Notation als Vorverarbeitung zu vereinheitlichen.
Wenn beispielsweise "," und "," in einem Satz gemischt werden, wird er mit beiden vereinheitlicht, und die Notation von "Apfel" und "Apfel" wird auch mit beiden vereinheitlicht.
Verwenden Sie "regulärer Ausdruck", um die zu normalisierende Zeichenfolge anzugeben.
Verwenden Sie insbesondere __re.sub ("zu entfernende Zeichenfolge", "Zeichenfolge nach Konvertierung", "zu entfernender Text") __ und beschreiben Sie den hier angegebenen Teil in einem regulären Ausdruck. -Reguläre Ausdrücke werden hier nicht im Detail behandelt. (Siehe Qiita für verschiedene Artikel)

・ Code (ausgenommen alphanumerische Zeichen aus "Ich kaufe 10 Artikel A") スクリーンショット 2020-10-18 16.44.49.png

Zusammenfassung

-Natürliche Sprachverarbeitung kann durchgeführt werden, indem ein Computer die natürliche Sprache als numerischen Wert verarbeitet.

Ein Korpus besteht aus __ Daten, die Dokumente in natürlicher Sprache zusammenfassen . - Morphologische Analyse __ ist eine der Methoden zur Verarbeitung natürlicher Sprache und eine Methode zum Teilen eines Satzes durch Wörter (morphologische Elemente) und zum Klassifizieren von Teilen. ・ Morphologische Analysen können mit "MeCab" oder "Janome" durchgeführt werden.
Da die morphologische Analyse vom verwendeten Wörterbuch abhängt, ist es wichtig, __normal Ausdrücke vorzuverarbeiten, damit das Wörterbuch beurteilt werden kann.

Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.

[PYTHON] Verarbeitung natürlicher Sprache 1 Morphologische Analyse