http://deeplearning.net/tutorial/lstm.html

Ein Hinweis, wenn ich kurz lese, was dieses Beispiel im Inneren tut. Um ehrlich zu sein, kann dieser Implementierungsteil von LSTM überhaupt nicht gelesen werden.

Die Lesebedingung ist so, dass sie manipuliert werden kann, so dass sie bis zu einem gewissen Grad frei überprüft werden kann.

Klassifizierung von Trainingsdaten

Insgesamt müssen drei Arten von Trainingsdaten eingegeben werden.

train --Daten zum Lernen verwendet
valid --Daten zur Überprüfung der Fehlerrate
Der numerische Wert des Fehlers wird als Verlauf aufgezeichnet
test --Daten zur Fehlerüberprüfung unabhängig vom Training ――Es wird anscheinend verwendet, um zu überprüfen, ob Überlernen aufgetreten ist.
Es wird völlig unabhängig vom tatsächlichen Training verwendet.
Wie die Fehlerrate von "gültig" wird auch die Fehlerrate von "test" in der Historie aufgezeichnet (später beschrieben).

Code lesen

imdb.py

Wir bereiten Daten vor. Es ist am einfachsten, diesen Teil zu erweitern, wenn Sie mit Originaldaten arbeiten.

prepare_data()

Nimmt mehrere Trainingsmuster und gibt ein Array transponierter Matrizen, als Beschriftung übergebene Werte und Maske zurück. --Daten mit mehr Elementen als von maxlen angegeben werden ausgeschlossen (nicht verkleinert) ――Selbst wenn Sie Ihre eigenen Daten verwenden möchten, müssen Sie sich nicht damit anlegen

load_data()

Vorbereitung von Zug-, gültigen Testdaten aus Rohdaten --Streit --path: Es scheint wie ein Cache zu funktionieren -Downloading von Daten von hier
Die Originaldaten für "Zug" und "Test" werden an erster Stelle getrennt, und die Daten für "Zug" werden in dem in "gültiger Teil" festgelegten Verhältnis in "Zug" und "gültig" unterteilt. --Andere Optionen - n_words
Bestimmung der Obergrenze der Anzahl der Vokabeln - sort_by_len
Nach Array-Länge sortieren. Ist es schneller? - maxlen
Gleich wie prepare_data. Daten, die darüber hinausgehen, werden übersprungen

imdb_preprocess.py Skript zur Datenaufbereitung

Es scheint, dass Sie in word-> id konvertieren. --Tokenize mit perl ――Es sieht so aus, als hätten Sie einige HTML-Tags entfernt. ――Es scheint, dass Perl nur ein historischer Hintergrund ist. (Ehrlich gesagt, eine Verarbeitung, die auch mit Python möglich zu sein scheint) ――Es scheint, dass es mehrere Sprachen unterstützen kann, aber natürlich unterstützt es kein Japanisch, das ohne morphologische Analyse nicht separat geschrieben werden kann.

lstm.py Ausführungsskript lernen

$ python lstm.py

Kann mit bewegt werden

Hauptfunktion

train_lstm() Echter Endpunkt. Hier ist das Argument der Funktion ein Parameter, der auf verschiedene Arten geändert werden kann. Es gibt ziemlich viele. Listen Sie die Dinge auf, die vorerst wahrscheinlich manipuliert werden.

Lernen im Zusammenhang
- dim_proj
Anzahl der versteckten Einheiten.
Der Versuch mit dem Standard 128 dauert lange.
- vaildFreq
Ein Einstellwert in Bezug auf die Häufigkeit der Überprüfung der Fehlerrate.
- patience --Variationen im Zusammenhang mit dem Zeitpunkt der vorzeitigen Beendigung.
Grob gesagt, wenn das Muster mit dem gleichen Ergebnis von "validFreq" die "Geduld" -Zeiten fortsetzt, stoppt Eary.
- max_epochs
Maximale Anzahl von Epochenläufen
- use_dropout
Vorhandensein oder Nichtvorhandensein einer Ausfallschicht. Standardwert True
- optimizer --Optimierungsfunktion.
Die Standardeinstellung ist AdaGrad. AdaGrad, RMSprop, SGD können ausgewählt werden ――Aber es heißt: "Seien Sie vorsichtig, weil SGD schwer zu handhaben ist." -Wenn Sie auf [diesen Artikel] verweisen (http://qiita.com/hogefugabar/items/1d4f6c905d0edbc71af2), scheint das Standard-AdaGrad ausreichend genau zu sein.
- decay_c
Gewichtsverfall. Gewichtsabschwächung. ――Ich habe es noch nicht richtig benutzt
Lerndaten im Zusammenhang
- n_words
Maximale Anzahl an Vokabeln. Standard 10000
- maxlen
Obergrenze der Anzahl der Elemente pro Trainingsmuster. Dies wird an das Lesen der Trainingsdaten von "imdb" übergeben --Andere
- saveto
Ausgabeziel der Endergebnisdatei des Modells
- reload_model
Starten Sie das Training mit dem zuvor gespeicherten Modell als Anfangswert
Vielleicht ist es fehlerhaft, aber es lädt eine Datei namens "lstm_model.npz".
- dispFreq
Protokollanzeigefrequenz.
Standard 10, aber 1 macht mehr Spaß, um die Ausführungsgeschwindigkeit zu sehen

Andere Funktionen, die Sie ein wenig kennen sollten

build_model() Der Teil, der das LSTM-Modell erstellt. Es wird auch verwendet, um das Modell zu reproduzieren, das mit "train_lstm" trainiert wurde.

init_tparams() Parameter für theano konvertieren. Der Parameter, der an build_model übergeben werden soll, muss über diese Funktion übergeben werden.

init_params() Globale Einstellungen für Nicht-LSTM

pred_error(), pred_probs() Funktionen, die das Modell ausführen. pred_error wird zur Fehlerberechnung verwendet. pred_probs gibt das Ergebnis aus. Wird beim Lernen nicht verwendet. Die beiden unterscheiden sich darin, ob sie "f_pred" oder "f_pred_prob" verwenden.

f_pred_prob gibt das Ergebnis jeder Wahrscheinlichkeit an und f_pred gibt die maximale Anzahl von Elementen zurück (= zu welcher Klasse sie gehörte).

sgd(), adadelta(), rmsprop() Optimierungsfunktion. Der Typ mit Optimierer zu wählen

param_init_lstm(), lstm_layer() Dieser Montageteil von LSTM. Der Rücken ist von diesem Punkt aus immer noch ein Rätsel. Wenn Sie jedoch den in lstm_layer erstellten Code mit der Formel vergleichen, können Sie sehen, dass fast dasselbe getan wird.

dropout_layer() Der Implementierungsteil von Dropout.

Was ist in dem vorgefertigten Modell

model = numpy.load("lstm_model.npz")

Da es im numpy-Datenformat gespeichert ist, kann es von numpy.load gelesen werden.

Die zuletzt erfasste Fehlerrate wird in "train_err", "valid_err" bzw. "test_err" eingegeben. --history_errs scheint relativ praktisch zu sein. Die für jede "validFreq" aufgezeichnete Fehlerrate wird in Form von "[valid_err, test_err]" eingegeben.
Andere Parameter des LSTM-Lernergebnisses

[PYTHON] Lesen Sie den Code, was Sie mit Theanos LSTM-Tutorial tun

Klassifizierung von Trainingsdaten

Code lesen

Hauptfunktion

Andere Funktionen, die Sie ein wenig kennen sollten

Was ist in dem vorgefertigten Modell