Article précédent a réussi à comprendre la fonction de perte, mais cela seul définit toujours la fonction et ne fait pas converger correctement la valeur (perte). Je n'ai pas demandé la réponse.

Donc, cette fois, je vais parler de la façon de trouver la réponse.

Comment faire converger la valeur

Nous omettons l'explication de la fonction de perte, mais à la fin nous devons faire converger les valeurs. Dans ce graphique, trouvez le "m" qui minimise la perte.

Vous n'obtenez pas la réponse en une seule fois, mais ajustez-la petit à petit pour vérifier la perte et faites des ajustements pour la réduire.

Cette partie "ajuster petit à petit" est le mal, mais j'utiliserai la sagesse à laquelle les grands gens ont pensé de différentes manières.

Méthode de descente de gradient par lots
Méthode de descente de gradient probabiliste --Méthode de descente de gradient en mini lot

Une méthode typique est comme celle-ci, mais il existe différents algorithmes en fonction de la manière de l'implémenter. Je n'entrerai pas dans les détails, mais les points clés sont la précision des valeurs et la vitesse de convergence.

Implémentation de TensorFlow

TensorFlow en prépare également beaucoup.

tensorflow.train.Optimizer
tensorflow.train.GradientDescentOptimizer
tensorflow.train.AdadeltaOptimizer
tensorflow.train.AdagradOptimizer
tensorflow.train.AdagradDAOptimizer
tensorflow.train.MomentumOptimizer
tensorflow.train.AdamOptimizer
tensorflow.train.FtrlOptimizer
tensorflow.train.ProximalGradientDescentOptimizer
tensorflow.train.ProximalAdagradOptimizer
tensorflow.train.RMSPropOptimizer

Il est difficile de tout comprendre, donc je me demande si ce n'est pas grave si je ne connais que «Adam Optimizer» et «Gradient Descent Optimizer» utilisés dans le didacticiel. "Adam Optimizer" est l'algorithme d'Adam et "Gradient Descent Optimizer" est la méthode de descente rapide.

L'utilisation est la même pour les deux, spécifiez le taux d'apprentissage comme valeur initiale et passez la fonction de perte à la fonction "minimiser ()" pour minimiser la valeur. Chaque code ressemble à ceci:

train_step = tensorflow.train.AdamOptimizer(1e-4).minimize(cross_entropy)

train_step = tensorflow.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

En fait, il y a plus d'arguments, mais consultez le manuel TensorFlow pour cela!

Il est facile de remplacer l'algorithme à utiliser, mais c'est un essai et une erreur pour décider quel devrait être le taux d'apprentissage. .. .. ^^;

Ainsi, lorsque vous faites cela, il ajustera automatiquement les paramètres de pondération afin que la valeur de la fonction de perte soit plus petite. Il s'agit de la "propagation de retour d'erreur".

Si vous voulez en savoir plus

Pour une histoire difficile sur l'algorithme de descente de gradient, il semble bon de lire l'article Par ici.

[PYTHON] Pensez grossièrement à la méthode de descente de gradient

Comment faire converger la valeur

Implémentation de TensorFlow

Si vous voulez en savoir plus