Vorheriger Artikel Ich habe die Verlustfunktion verstanden, aber das allein definiert die Funktion immer noch und konvergiert den Wert (Verlust) nicht richtig. Ich habe nicht nach der Antwort gefragt.
Dieses Mal werde ich darüber sprechen, wie man die Antwort findet.
Wir werden die Erklärung der Verlustfunktion weglassen, aber am Ende müssen wir die Werte konvergieren. Suchen Sie in diesem Diagramm das "m", das den Verlust minimiert.
Sie erhalten die Antwort nicht auf einmal, sondern passen sie nach und nach an, um den Verlust zu überprüfen, und nehmen Anpassungen vor, um sie zu verkleinern.
Dieser Teil "Stück für Stück anpassen" ist das Unheil, aber ich werde die Weisheit, über die große Menschen nachgedacht haben, auf verschiedene Weise nutzen.
Eine typische Methode ist wie diese, es gibt jedoch verschiedene Algorithmen, je nachdem, wie dies implementiert wird. Ich werde nicht auf Details eingehen, aber die wichtigsten Punkte sind die Genauigkeit der Werte und die Geschwindigkeit der Konvergenz.
TensorFlow bereitet auch so viele vor.
Es ist schwer, alles zu verstehen, daher frage ich mich, ob es in Ordnung ist, wenn ich nur den im Tutorial verwendeten "Adam Optimizer" und "Gradient Descent Optimizer" kenne. "Adam Optimizer" ist der Adam-Algorithmus und "Gradient Descent Optimizer" ist die schnelle Abstiegsmethode.
Die Verwendung ist für beide gleich, geben Sie die Lernrate als Anfangswert an und übergeben Sie die Verlustfunktion an die Funktion "minimieren ()", um den Wert zu minimieren. Jeder Code sieht folgendermaßen aus:
train_step = tensorflow.train.AdamOptimizer(1e-4).minimize(cross_entropy)
train_step = tensorflow.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
Es ist leicht, den zu verwendenden Algorithmus zu ersetzen, aber es ist ein Versuch und Irrtum, zu entscheiden, wie hoch die Lernrate sein soll. .. .. ^^;
Wenn Sie dies tun, werden die Gewichtungsparameter automatisch so angepasst, dass der Wert der Verlustfunktion kleiner ist. Dies ist "Fehlerrückübertragung".
Eine schwierige Geschichte über den Algorithmus für den Gradientenabstieg finden Sie im Artikel Vorgehensweise.
Recommended Posts