Aidemy 2020/10/1
Hallo, es ist ja! Obwohl es ein knuspriges literarisches System ist, interessierte ich mich für die Möglichkeiten der KI, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der zweite Beitrag von Deep Running. Freut mich, dich kennenzulernen.
Was diesmal zu lernen ・ Über Hyperparameter des tiefen Lernens
・ Hyperparameter hinzufügen ・ __ Abbrecherquote : Abbrecherquote (Rate =) - Anzahl der versteckten Ebeneneinheiten __: Dense () ・ __Aktivierungsfunktion __: Aktivierung () ・ Hyperparameter der Kompilierung ・ __ Verlustfunktion : Verlust - Optimierungsfunktion __: Optimierer ・ __ Lernrate __: Optimierer.SGD (lr =) ・ Passen Sie die Hyperparameter an ・ __Batchgröße __: Batchgröße ・ __ Anzahl der Epochen __: Epochen
-Obwohl die Anzahl der verborgenen Schichten und die Anzahl der Einheiten frei bestimmt werden können, muss vorsichtig vorgegangen werden, da das Risiko besteht, dass das Lernen verzögert wird oder ein Überlernen leicht auftritt, wenn die Anzahl zu groß ist. -Wenn __Dropout (Rate = Verhältnis der zu löschenden Einheiten) __ wie oben angegeben als Hyperparameter angegeben wird, wird das Lernen durchgeführt, während ein festes Verhältnis der Einheiten (Neuronen) gelöscht wird. Aussetzer ermöglichen ein Lernen, das unabhängig von bestimmten Neuronen ist, wodurch Überlernen verhindert und die Modellgenauigkeit verbessert wird.
-Aktivierung ist eine Funktion, die für __ vollständig verbundene Schichtausgabe (Neuron Firing) __ angewendet wird. Wenn die Aktivierungsfunktion nicht angegeben ist, können die Daten nicht durch eine gerade Linie getrennt und die Daten nicht klassifiziert werden.
-Für die Aktivierungsfunktion __ "Sigmoid-Funktion (Sigmoid)", die den Eingabewert im Bereich von "0 bis 1" ausgibt, wird 0 ausgegeben, wenn der Eingabewert kleiner als 0 ist, und 0 wird ausgegeben, wenn er 0 oder mehr ist. Es gibt __ "ReLU-Funktion (relu)" __, die den Wert so ausgibt, wie er ist.
-Die Funktion, die den Unterschied zwischen den Ausgabedaten und den Lehrerdaten anzeigt, wird als __verlust-Funktion (Verlust) __ bezeichnet. -Verlustfunktionen, die beim maschinellen Lernen verwendet werden, umfassen __ "(durchschnittlicher) quadratischer Fehler" __ und __ "Kreuzentropiefehler" __. Details werden später beschrieben. ・ (Überprüfung) Beim Deep Learning wird das Gewicht jeder Schicht aktualisiert, um diese Verlustfunktion zu minimieren (Fehler-Rück-Ausbreitungsmethode).
・ Wie oben erwähnt, werden die Gewichte aktualisiert und gelernt, so dass die Verlustfunktion minimiert wird. Zu diesem Zeitpunkt werden die Gewichte wie __Lernrate, Anzahl der Epochen und vergangene Gewichtsaktualisierungsmenge aktualisiert. Der Optimierer wird verwendet, um zu bestimmen, ob reflektiert werden soll oder __. Was im Optimierer eingestellt ist, sind "Optimierer", die die später beschriebene Lernrate einstellen.
-Die Lernrate (lr) ist ein Hyperparameter, der bestimmt, wie stark sich das Gewicht jeder Schicht gleichzeitig ändert. -Wenn die Lernrate zu niedrig ist, wird das Update kaum fortgesetzt, und wenn es zu hoch ist, wird der Wert gestreut und das Update wird verschwendet oder in einigen Fällen konvergiert es nicht. Daher muss es auf einen geeigneten Wert eingestellt werden.
-Batchgröße ist die Anzahl der Daten, die gleichzeitig in das __- Modell __ eingegeben werden sollen. Wenn Sie mehrere Daten gleichzeitig übergeben, wird das Gewicht aktualisiert, indem der Durchschnittswert des Verlusts der einzelnen Daten und der Gradient der Verlustfunktion verwendet werden, sodass der Einfluss der verzerrten Daten verringert werden kann. Da dies möglich ist, kann __ die Berechnungszeit __ verkürzt werden.
・ Beim Deep Learning wird das Lernen im Allgemeinen mehrmals mit denselben Trainingsdaten wiederholt, um die Genauigkeit zu verbessern. Die Anzahl der Lernvorgänge zu diesem Zeitpunkt wird als epochs bezeichnet. Selbst wenn die Anzahl der Lernvorgänge groß ist, erhöht sich die Genauigkeit nach einem bestimmten Betrag nicht mehr. Wenn jedoch mehr als erforderlich gelernt wird, tritt Überlernen auf, sodass die Anzahl der Epochen auf einen geeigneten Wert eingestellt werden muss.
-Für die Hyperparameter des tiefen Lernens werden __Dropout (rate =) __ für das Dropout-Verhältnis, __Dense () __ für die Anzahl der Einheiten für verborgene Ebenen und __Aktivierung für die Aktivierungsfunktion addiert. () __ · Es gibt. -Die Anzahl der Einheiten in der Dropout- und der ausgeblendeten Ebene hängt mit dem Auftreten von Überlernen zusammen. Wenn die Aktivierungsfunktion nicht festgelegt ist, können die Daten nicht selbst klassifiziert werden. Daher muss ein geeigneter Wert festgelegt werden.
Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.
Recommended Posts