Aidemy　2020/10/1

Einführung

Hallo, es ist ja! Obwohl es ein knuspriges literarisches System ist, interessierte ich mich für die Möglichkeiten der KI, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der zweite Beitrag von Deep Running. Freut mich, dich kennenzulernen.

Dieser Artikel ist eine Zusammenfassung dessen, was Sie in "Aidemy" "in Ihren eigenen Worten" gelernt haben. Es kann Fehler und Missverständnisse enthalten. Bitte beachten Sie.

Was diesmal zu lernen ・ Über Hyperparameter des tiefen Lernens

Hyperparameter für tiefes Lernen

Arten von Hyperparametern für tiefes Lernen

・ Hyperparameter hinzufügen ・ __ Abbrecherquote : Abbrecherquote (Rate =) - Anzahl der versteckten Ebeneneinheiten __: Dense () ・ __Aktivierungsfunktion __: Aktivierung () ・ Hyperparameter der Kompilierung ・ __ Verlustfunktion : Verlust - Optimierungsfunktion __: Optimierer ・ __ Lernrate __: Optimierer.SGD (lr =) ・ Passen Sie die Hyperparameter an ・ __Batchgröße __: Batchgröße ・ __ Anzahl der Epochen __: Epochen

Anzahl der ausgeblendeten Ebenen und Vorhersagegenauigkeit (Dropout)

-Obwohl die Anzahl der verborgenen Schichten und die Anzahl der Einheiten frei bestimmt werden können, muss vorsichtig vorgegangen werden, da das Risiko besteht, dass das Lernen verzögert wird oder ein Überlernen leicht auftritt, wenn die Anzahl zu groß ist. -Wenn __Dropout (Rate = Verhältnis der zu löschenden Einheiten) __ wie oben angegeben als Hyperparameter angegeben wird, wird das Lernen durchgeführt, während ein festes Verhältnis der Einheiten (Neuronen) gelöscht wird. Aussetzer ermöglichen ein Lernen, das unabhängig von bestimmten Neuronen ist, wodurch Überlernen verhindert und die Modellgenauigkeit verbessert wird.

Aktivierungsfunktion

-Aktivierung ist eine Funktion, die für __ vollständig verbundene Schichtausgabe (Neuron Firing) __ angewendet wird. Wenn die Aktivierungsfunktion nicht angegeben ist, können die Daten nicht durch eine gerade Linie getrennt und die Daten nicht klassifiziert werden.

Umgekehrt, wenn die Aktivierungsfunktion angegeben ist, kann sogar ein Modell, das nicht linear getrennt werden kann, ohne Fehler klassifiziert werden, wenn es richtig trainiert werden kann.

-Für die Aktivierungsfunktion __ "Sigmoid-Funktion (Sigmoid)", die den Eingabewert im Bereich von "0 bis 1" ausgibt, wird 0 ausgegeben, wenn der Eingabewert kleiner als 0 ist, und 0 wird ausgegeben, wenn er 0 oder mehr ist. Es gibt __ "ReLU-Funktion (relu)" __, die den Wert so ausgibt, wie er ist.

Verlustfunktion

-Die Funktion, die den Unterschied zwischen den Ausgabedaten und den Lehrerdaten anzeigt, wird als __verlust-Funktion (Verlust) __ bezeichnet. -Verlustfunktionen, die beim maschinellen Lernen verwendet werden, umfassen __ "(durchschnittlicher) quadratischer Fehler" __ und __ "Kreuzentropiefehler" __. Details werden später beschrieben. ・ (Überprüfung) Beim Deep Learning wird das Gewicht jeder Schicht aktualisiert, um diese Verlustfunktion zu minimieren (Fehler-Rück-Ausbreitungsmethode).

Durchschnittlicher quadratischer Fehler

Eine Verlustfunktion, die die Differenz zwischen den einzelnen Ausgabedaten und den Lehrerdaten quadriert und mittelt.
Da der mittlere quadratische Fehler zur Bewertung kontinuierlicher Werte geeignet ist, __ hauptsächlich angewendet auf Regressionsmodelle __.

Kreuzentropiefehler (kategoriale_kreuzentropie)

Eine Verlustfunktion, die den Fehler zwischen den Lehrerdaten des richtigen Antwortetiketts und den Ausgabedaten um 0 bis 1 ausdrückt, indem die Tatsache verwendet wird, dass die Ausgabe des richtigen Antwortetiketts 1 ist. (Je näher es an 0 liegt, desto kleiner ist der Fehler) -Kreuzentropiefehler wird __ hauptsächlich auf das Klassifizierungsmodell (binäre Klassifizierung) __ angewendet.

Optimierungsfunktion

・ Wie oben erwähnt, werden die Gewichte aktualisiert und gelernt, so dass die Verlustfunktion minimiert wird. Zu diesem Zeitpunkt werden die Gewichte wie __Lernrate, Anzahl der Epochen und vergangene Gewichtsaktualisierungsmenge aktualisiert. Der Optimierer wird verwendet, um zu bestimmen, ob reflektiert werden soll oder __. Was im Optimierer eingestellt ist, sind "Optimierer", die die später beschriebene Lernrate einstellen.

Lernrate

-Die Lernrate (lr) ist ein Hyperparameter, der bestimmt, wie stark sich das Gewicht jeder Schicht gleichzeitig ändert. -Wenn die Lernrate zu niedrig ist, wird das Update kaum fortgesetzt, und wenn es zu hoch ist, wird der Wert gestreut und das Update wird verschwendet oder in einigen Fällen konvergiert es nicht. Daher muss es auf einen geeigneten Wert eingestellt werden.

Chargengröße

-Batchgröße ist die Anzahl der Daten, die gleichzeitig in das __- Modell __ eingegeben werden sollen. Wenn Sie mehrere Daten gleichzeitig übergeben, wird das Gewicht aktualisiert, indem der Durchschnittswert des Verlusts der einzelnen Daten und der Gradient der Verlustfunktion verwendet werden, sodass der Einfluss der verzerrten Daten verringert werden kann. Da dies möglich ist, kann __ die Berechnungszeit __ verkürzt werden.

Wenn andererseits mehrere Daten übergeben werden, ist es schwierig, große Gewichte zu aktualisieren, und es besteht die Möglichkeit, eine lokale Lösung zu generieren, die nur für einige Daten optimiert ist.
Aus diesem Grund wird bei vielen unregelmäßigen Daten die Stapelgröße häufig erhöht, um den Einfluss verzerrter Daten zu verringern, und bei geringen Datenmengen wird die Stapelgröße häufig verringert, um lokale Lösungen zu vermeiden. ・ Setzen Sie die Stapelgröße auf 1, dh lernen Sie, Daten einzeln einzugeben __online learning __, lernen Sie, die Stapelgröße auf die Gesamtzahl der Daten festzulegen __batch learning (batch_size) __ und so weiter. Die Einstellung auf wird als mini-Batch-Lernen bezeichnet.

Iteratives Lernen (Anzahl der Epochen)

・ Beim Deep Learning wird das Lernen im Allgemeinen mehrmals mit denselben Trainingsdaten wiederholt, um die Genauigkeit zu verbessern. Die Anzahl der Lernvorgänge zu diesem Zeitpunkt wird als epochs bezeichnet. Selbst wenn die Anzahl der Lernvorgänge groß ist, erhöht sich die Genauigkeit nach einem bestimmten Betrag nicht mehr. Wenn jedoch mehr als erforderlich gelernt wird, tritt Überlernen auf, sodass die Anzahl der Epochen auf einen geeigneten Wert eingestellt werden muss.

Zusammenfassung

-Für die Hyperparameter des tiefen Lernens werden __Dropout (rate =) __ für das Dropout-Verhältnis, __Dense () __ für die Anzahl der Einheiten für verborgene Ebenen und __Aktivierung für die Aktivierungsfunktion addiert. () __ · Es gibt. -Die Anzahl der Einheiten in der Dropout- und der ausgeblendeten Ebene hängt mit dem Auftreten von Überlernen zusammen. Wenn die Aktivierungsfunktion nicht festgelegt ist, können die Daten nicht selbst klassifiziert werden. Daher muss ein geeigneter Wert festgelegt werden.

Es gibt loss, das die Verlustfunktion angibt, und optimizer, das die Optimierungsfunktion angibt, die beim Kompilieren festgelegt werden soll. -Für die Verlustfunktion wird __ "kategoriale_kreuzentropie" __ im Klassifizierungsmodell verwendet. Die Optimierungsfunktion hängt davon ab, wie die Gewichte aktualisiert werden, und legt __optimizers.SGD (lr =) __ fest, das die Lernrate angibt. -Die Lernrate ist die Menge an Gewicht, die gleichzeitig geändert werden kann. Wenn dies nicht richtig eingestellt ist, wird das Lernen verschwendet oder der Fortschritt wird verlangsamt. -Es gibt batch_size, das die Stapelgröße angibt, und epochs, das die Anzahl der Epochen angibt, die angepasst werden sollen. Die Stapelgröße gibt die Anzahl der Daten an, die gleichzeitig in das Modell eingegeben wurden, und die Anzahl der Epochen gibt die Anzahl der Schulungen an. Diese Werte variieren von Modell zu Modell.

Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.

[PYTHON] Deep Running 2 Tuning von Deep Learning