Dieser Artikel ist eine leicht verständliche Ausgabe von ** Deep Learning von Grund auf neu. Kapitel 7 Lerntechniken **. Ich konnte es selbst verstehen, also hoffe ich, dass Sie es bequem lesen können. Ich würde mich auch sehr freuen, wenn Sie sich beim Studium dieses Buches darauf beziehen könnten.
SGD SGD ist eine Methode zum Aktualisieren der Parameter durch Multiplizieren des Lernkoeffizienten und Subtrahieren von den aktuellen Parametern, nachdem der Gradient wie zuvor gefunden wurde. Diese Methode ist einfach und leicht zu implementieren, aber da die durch den Gradienten angegebene Richtung nicht die Richtung zum exakten Minimalwert ist, führt sie eine gezackte und ineffiziente Suche bis zum Punkt des Parameters durch, der der Minimalwert der Verlustfunktion ist. Ist eine Schwachstelle.
Momentum Eine Methode mit dem zusätzlichen Konzept der Geschwindigkeit. Der Parameter wird aktualisiert, indem die Geschwindigkeit ermittelt wird, mit der die Steigung von der Steigung zum Punkt mit dem Minimalwert der Verlustfunktion am aktuellen Punkt rollt, und zum Parameter hinzugefügt wird. Es führt eine Zickzack-Suche wie SGD durch, aber die Ineffizienz wird verringert, da der Zickzack verringert wird und die Suche im Vergleich zu SGD gerundet wird.
AdaGrad Zuerst wird der Lernkoeffizient erhöht und aktualisiert, und dann wird der Lernkoeffizient allmählich verringert und aktualisiert. ** Eine Methode, die die Technik des Zerfalls des Lernkoeffizienten verwendet **. Zunächst werden die Parameter stark aktualisiert, und dann werden die Parameteraktualisierungen schrittweise reduziert. Mit dieser Methode kann die Zick-Zack-Suche weiter reduziert und eine effiziente Suche durchgeführt werden.
Adam Eine neue Methode, die 2015 vorgeschlagen wurde und Momentum und AdaGrad kombiniert. Da es kompliziert ist, werde ich es hier nicht erklären, aber es ist möglich, sehr effizient zu suchen.
Die wichtigsten derzeit verwendeten Methoden sind einfache SGD und sehr effizienter, aber komplexer Adam.
Recommended Posts