http://deeplearning.net/tutorial/lstm.html

Une note lorsque je lis brièvement ce que cet exemple fait à l'intérieur. Pour être honnête, cette partie implémentation de LSTM ne peut pas être lue du tout.

La condition de lecture est telle que vous pouvez jouer avec afin de pouvoir la vérifier librement dans une certaine mesure.

Classification des données d'entraînement

En tant que code entier, il existe trois types de données d'entraînement à saisir.

train
Données utilisées pour l'apprentissage
valid --Données pour vérifier le taux d'erreur
La valeur numérique de l'erreur est enregistrée comme historique
test
Données utilisées pour la vérification des erreurs indépendamment de la formation ――Il semble qu'il soit utilisé pour vérifier s'il y a eu surapprentissage.
Il est utilisé complètement indépendamment de la formation réelle. --Comme le taux d'erreur de «valide», le taux d'erreur de «test» est également enregistré dans l'historique (décrit plus loin).

Lecture de code

imdb.py

Nous préparons des données. Il est plus facile d'étendre cette partie lorsqu'il s'agit de données d'origine.

prepare_data()

Prend plusieurs échantillons d'apprentissage et renvoie un tableau de matrices transposées, de valeurs passées comme étiquette et de masque. --Les données contenant plus d'éléments que celles spécifiées par maxlen sont exclues (non réduites) ―― Même si vous souhaitez utiliser vos propres données, vous n'avez pas besoin de les manipuler.

load_data() --Préparation du train, des données de test valides à partir de données brutes --Argument --path: Cela semble fonctionner comme un cache -Téléchargement des données depuis ici

Les données originales pour «train» et «test» sont séparées en premier lieu, et les données pour «train» sont divisées en «train» et «valid» au rapport défini dans «valid_portion». --Autres options - n_words
Limite supérieure du nombre de vocabulaire - sort_by_len --Trier par longueur de tableau. Est-ce plus rapide de le faire? - maxlen
Identique à prepare_data. Les données dépassant cette valeur seront ignorées

imdb_preprocess.py Script pour la préparation des données

--Il semble que vous convertissez en mot-> id. --Tokenize en utilisant perl ――Il semble que vous ayez supprimé certaines balises HTML. «Il semble que perl ne soit qu'un arrière-plan historique. (Honnêtement, un traitement qui semble être possible même avec python) ――Il semble qu'il puisse prendre en charge plusieurs langues, mais bien sûr, il ne prend pas en charge le japonais, qui ne peut pas être écrit séparément sans analyse morphologique.

lstm.py Script d'exécution d'apprentissage

$ python lstm.py

Peut être déplacé avec

Fonction principale

train_lstm() Véritable point final. Ici, l'argument de la fonction est un paramètre qui peut être modifié de différentes manières. Il y en a beaucoup. Énumérez les éléments susceptibles d'être altérés pour le moment.

Liée à l'apprentissage
- dim_proj --Nombre d'unités cachées.
Il faut beaucoup de temps pour essayer avec la valeur par défaut 128.
- vaildFreq --Une valeur définie liée à la fréquence de vérification du taux d'erreur.
- patience --Variations liées au moment de la résiliation anticipée.
En gros, si le motif avec le même résultat de «validFreq» continue »les temps de« patience », Eary s'arrête.
- max_epochs --Nombre maximum d'exécutions d'époque
- use_dropout --Présence ou absence de couche d'abandon. Vrai par défaut
- optimizer
Fonction d'optimisation.
La valeur par défaut est AdaGrad. AdaGrad, RMSprop, SGD peuvent être sélectionnés «Mais il dit:" Soyez prudent car SGD est difficile à gérer. " -Si vous vous référez à cet article, AdaGrad par défaut semble être suffisamment précis.
- decay_c
Décroissance du poids. Atténuation du poids. ――Je ne l'ai pas encore utilisé correctement --Apprentissage des données liées
- n_words --Nombre maximum de vocabulaire. Par défaut 10000
- maxlen
Limite supérieure du nombre d'éléments par échantillon d'apprentissage. Ceci est passé à la lecture des données d'entraînement ʻimdb` --Autre
- saveto --Destination de sortie du fichier de résultat final du modèle
- reload_model --Démarrez la formation avec le modèle précédemment enregistré comme valeur initiale
Peut-être que c'est bogué, mais il charge un fichier appelé lstm_model.npz.
- dispFreq
Fréquence d'affichage du journal.
Par défaut 10 mais 1 est plus amusant de voir la vitesse d'exécution

D'autres fonctions que vous devriez connaître un peu

build_model() La partie qui construit le modèle LSTM. Il est également utilisé pour reproduire le modèle qui a été formé avec train_lstm.

init_tparams() Conversion des paramètres pour theano. Le paramètre à lancer à build_model doit être passé par cette fonction.

init_params() Paramètres globaux pour les non-LSTM

pred_error(), pred_probs() Fonctions qui exécutent le modèle. pred_error est utilisé pour le calcul des erreurs. pred_probs affiche le résultat. Non utilisé pendant l'apprentissage. Les deux diffèrent selon qu'ils utilisent f_pred ou f_pred_prob.

f_pred_prob donne le résultat de chaque probabilité, et f_pred renvoie le nombre maximum d'éléments (= à quelle classe il appartenait).

sgd(), adadelta(), rmsprop() Fonction d'optimisation. Le gars à choisir avec l'optimiseur

param_init_lstm(), lstm_layer() Cette partie de montage de LSTM. Le dos est encore un mystère à partir de ce point. Cependant, si vous comparez le code fait dans lstm_layer avec la formule, vous pouvez voir que presque la même chose est faite.

dropout_layer() La partie mise en œuvre de l'abandon.

Contenu du modèle pré-construit

model = numpy.load("lstm_model.npz")

Comme il est enregistré au format de données numpy, il peut être lu par numpy.load.

Le dernier taux d'erreur acquis est entré respectivement dans train_err, valid_err et test_err. --history_errs semble être relativement pratique. Le taux d'erreur enregistré pour chaque «validFreq» est entré sous la forme de «[valid_err, test_err]». --Autres paramètres du résultat d'apprentissage LSTM

[PYTHON] Code de lecture de ce que vous faites avec le didacticiel LSTM de Theano

Classification des données d'entraînement

Lecture de code

Fonction principale

D'autres fonctions que vous devriez connaître un peu

Contenu du modèle pré-construit