Wir haben die maschinelle Übersetzung mit dem Microsoft Cognitive Toolkit (CNTK) zusammengefasst.
In Teil 1 bereiten wir die maschinelle Übersetzung mit dem Microsoft Cognitive Toolkit vor.
Ich werde sie in der folgenden Reihenfolge vorstellen.
Der japanisch-englische Untertitelkorpus ist ein großer zweisprachiger japanisch-englischer Korpus, der auch verbal ist. [1]
Japanese-English Subtitle Corpus
Gehen Sie zur obigen Seite, um die offiziellen Splits unter Download herunterzuladen und zu entpacken. Die Struktur des Verzeichnisses ist diesmal wie folgt.
Doc2Vec NMTT |―JESC dev test train nmtt_corpus.py STSA Word2Vec
Dieses Mal haben wir eine Vorverarbeitung für das JESC-Dataset durchgeführt, z. B. die Reduzierung der Redundanz und das Entfernen von Nicht-Japanern.
In Bezug auf die Wortteilung Satzstück sowie Natürliche Sprache: Chat Bot Part1-Twitter API Corpus Erstellen Sie ein Unterwortmodell mit dem Satzstück.
Nach der Konvertierung in Wort-IDs mithilfe des mit den Trainingsdaten trainierten Satzstückmodells können Sie eine Textdatei für den für das Training verwendeten CTFDeserializer erstellen.
・ CPU Intel (R) Core (TM) i7-7700 3,60 GHz
・ Windows 10 Pro 1909 ・ Python 3.6.6 ・ Satzstück 0.1.86
Das implementierte Programm wird auf [GitHub] veröffentlicht (https://github.com/sho-watari/NaturalLanguage/tree/master/NMTT).
nmtt_corpus.py
Die Funktion jesc_preprocessing generiert train.english.txt und train.japanese.txt, um das Satzstückmodell zu erstellen.
Dann trainieren Sie das Satzstückmodell. Das Training beginnt mit dem Setzen der Argumente wie unten gezeigt. Erstellen Sie ein Modell separat für Japanisch und Englisch. Ich habe die Anzahl der Wörter auf 32.000 festgelegt.
$ spm_train --input=/mnt/c/.../JESC/train.english.txt --model_prefix=english --vocab_size=32000
Am Ende des Trainings werden english.model, english.vocab und japanese.model, japanese.vocab erstellt.
Führen Sie abschließend die Funktion jesc_sentencepiece aus, um eine Textdatei zu erstellen, die von CTFDeserializer gelesen werden soll.
Now 10000 samples...
Now 20000 samples...
...
Now 2740000 samples...
Number of samples 2748930
Maximum Sequence Length 97
Jetzt, da Sie bereit sind zu trainieren, wird Teil 2 CNTK verwenden, um Sie in maschineller Übersetzung zu schulen.
Natural Language : Chat Bot Part1 - Twitter API Corpus
Recommended Posts