Aidemy 2020/11/21
Einführung
Hallo, es ist ja! Ich bin eine knusprige Literaturschule, aber ich war an den Möglichkeiten der KI interessiert, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank!
Dies ist der erste Beitrag zum vertieften Lernen. Freut mich, dich kennenzulernen.
- Dieser Artikel ist eine Zusammenfassung dessen, was Sie in "Aidemy" "in Ihren eigenen Worten" gelernt haben. Es kann Fehler und Missverständnisse enthalten. Bitte beachten Sie.
Was diesmal zu lernen
・ (Rückblick) Stärkung des Lernens
・ Stärkung der Lernmethode
・ DQN
(Rückblick) Über die Stärkung des Lernens
・ Stärken des Lernens ist eine Methode des maschinellen Lernens.
・ Das Folgende sind die Komponenten des verbesserten Lernens. Das handelnde Subjekt agent, das Ziel der Aktion__Umgebung__, die Aktion auf die Umgebung__Verhalten__ und die Elemente der Umgebung, die sich entsprechend ändern, sind Zustand. Außerdem gibt Reward die Bewertung an, die durch die Aktion sofort erhalten wurde, und Profit gibt an, wie viel die Gesamtbelohnung letztendlich erhalten hat.
・ Der Zweck des verstärkten Lernens besteht darin, die Summe dieser Ergebnisse zu maximieren.
- Als Modell des verstärkenden Lernens wird die __Maßnahme __ der Auswahl von Agentenaktionen ausgedrückt als __ "Eingabe des aktuellen Umgebungsstatus" __ und __ "Ausgabeaktion" __. Und diese Aktion wählt etwas aus, das Ihnen eine höhere Belohnung als __ gibt.
・ Wenn für diese "höhere Belohnung" alle Inhalte der Belohnung bekannt sind, sollte diejenige mit der höchsten Belohnung ausgewählt werden. In Wirklichkeit wird dies jedoch selten im Voraus angegeben. In einem solchen Fall ist es erforderlich, Informationen zu sammeln, indem Aktionen ausgeführt werden, die noch nie durch Ausführen von __ "Suchen" __ ausgewählt wurden. Nach dem Sammeln von Informationen auf diese Weise ist es ratsam, die Aktion auszuwählen, die als die lohnendste angesehen wird. Dies nennt man __ "use" __.
Lernmaßnahmen stärken
(Review) gierige Methode
-Es ist wichtig, Maßnahmen im Einklang mit dem Problem der Maßnahmen bezüglich der Durchführung der oben gezeigten Suche und Verwendung zu ergreifen.
- Wenn zum Beispiel alle erwarteten Werte von Belohnungen bekannt sind, ist es am besten, __ "gierige Methode" __ auszuwählen, dass nur die Aktion mit dem höchsten erwarteten Wert ausgewählt wird.
・ Wie oben erwähnt, gibt es jedoch im Allgemeinen nur wenige Fälle, in denen alle Belohnungen bekannt sind. In solchen Fällen ist es daher erforderlich, eine andere Aktion auszuwählen, auch wenn bekannt ist, dass die erhaltenen Belohnungen gering sind. Eine dieser Maßnahmen ist __ "ε-gierige Methode" __. Dies ist __, das mit der Wahrscheinlichkeit ε sucht, und __, das es mit ___ 1-ε verwendet. Durch Verringern des Werts von ε basierend auf der Anzahl der Versuche erhöht sich die Nutzungsrate und Sie können effizient suchen.
Boltzmann Auswahl
・ Die ε-gierige Methode war eine __Methode zur Auswahl von Aktionen mit einer gewissen Wahrscheinlichkeit. Ähnlich gibt es eine Richtlinie namens __ "Boltzmann-Auswahl" __.
-Boltzmann-Auswahl wird so genannt, weil die Auswahlwahrscheinlichkeit der folgenden __Boltzmann-Verteilung __ folgt.
-In dieser Formel heißt __ "T" __ __Temperaturfunktion __, und es ist __ "Funktion, die im Laufe der Zeit gegen 0 konvergiert" __. Zu diesem Zeitpunkt wählt __T → unendliches Limit __ alle Aktionen mit der gleichen Wahrscheinlichkeit __ aus, und __T → 0 Limit __ erleichtert die Auswahl der Aktion mit dem maximal erwarteten Belohnungswert __ Es ist eine Sache.
- Mit anderen Worten, da T zu Beginn groß ist, ist die Aktionsauswahl zufällig __, aber wenn __T sich im Laufe der Zeit 0 nähert, wird es __, wie bei der gierigen Methode auszuwählen.
DQN
-__ DQN__ ist die __Q-Funktion des Q-Lernens, ausgedrückt durch tiefes Lernen __. Die __Q-Funktion __ ist die __ "Aktionswertfunktion" __, und das __Q-Lernen __ ist ein Verstärkungslernalgorithmus, der dies abschätzt.
-Die Funktion __Aktionswert __ ist eine Funktion, die den erwarteten Wert der Belohnung berechnet, wenn __optimale Maßnahmen durch Eingabe von __ "Status s und Aktion a" __ ergriffen werden. Was getan wird, ist die Summe aus dem Aktionswert __, der durch Ausführen einer bestimmten Aktion erhalten wird, und dem Aktionswert __, der durch Ausführen einer möglichen Aktion im nächsten Zustand __ erhalten wird Nehmen Sie dann den Unterschied __ vom aktuellen Aktionswert und aktualisieren Sie die Funktion ein wenig (passen Sie die Lernrate an).
- Tatsächlich werden Zustand s und Aktion a für alle Kombinationen durch die Tabellenfunktion __ dargestellt. Abhängig vom Problem besteht jedoch das Risiko, dass die Menge dieser Kombination enorm ist.
・ In einem solchen Fall kann DQN gelöst werden, indem diese Q-Funktion durch tiefes Lernen angenähert wird.
-Eigenschaften von __DQN sind wie folgt. Einzelheiten finden Sie im nächsten Kapitel.
· __Erfahrungswiedergabe : __ Datenzeitreihen mischen, um Zeitreihenkorrelationen zu behandeln
- Zielnetzwerk __: Berechnet den Fehler aus der richtigen Antwort und passt das Modell so an, dass es nahe an der richtigen Antwort liegt. Erstellen Sie nach dem Zufallsprinzip einen Stapel aus den Daten und führen Sie __Batch-Lernen __ durch.
-Filtern und konvertieren Sie Bilder mit CNN: __ Faltung .
- Ausschnitt __: In Bezug auf die Belohnung ist es, wenn es negativ ist, - 1, wenn es positiv ist, ist es __ + 1 __, und wenn es keine ist, ist es 0.
Experience Replay
- Zum Beispiel hat die Eingabe, die der Agent erhält, der das Spiel spielt, die Eigenschaft __time series __. Da die Zeitreiheneingabe eine starke Korrelation aufweist __, wird das Lernergebnis verzerrt und die Konvergenz ist schlecht, wenn die Zeitreiheneingabe wie zum Lernen verwendet wird. Die Lösung hierfür heißt Experience Replay. Dies ist eine Methode, bei der Zustände, Aktionen und Belohnungen eingegeben, alle oder eine bestimmte Anzahl aufgezeichnet und dann zufällig aufgerufen und gelernt werden.
Zusammenfassung
- Beim verstärkten Lernen werden search und use durchgeführt, um den Gesamtbetrag der __ Gewinne zu maximieren. Wie das geht, ist policy.
-Für diese Maßnahme ist die __ "gierige Methode" __ wirksam, wenn der erwartete Wert der Belohnung bekannt ist. Dies ist __, um nur die Aktionen mit den höchsten Erwartungen auszuwählen.
-Die __ "ε-gierige Methode" __ entspricht dem Fall, in dem nicht alle erwarteten Belohnungswerte bekannt sind. Diese Richtlinie besteht darin, mit der Wahrscheinlichkeit ε zu suchen und mit 1-ε zu verwenden.
- Als ähnliches Maß gibt es Boltzmann-Auswahl . Da die Werte gemäß der Boltzmann-Verteilung unter Verwendung der temperaturfunktion T ausgewählt werden, konvergiert der Wert über die Zeit gegen 0, die Aktion wird zuerst zufällig ausgewählt, aber die Aktion mit dem höchsten erwarteten Wert wird über die Zeit ausgewählt. Wird sein.
- DQN ist die __Q-Funktion (Aktionswertfunktion) __ ausgedrückt durch __ Deep Learning __. Die Aktionswertfunktion berechnet den erwarteten Wert der Belohnung durch Eingabe des Zustands s und der Aktion a. Diese Methode wird jedoch verwendet, da die Menge von s und a enorm wird, wenn alle Kombinationen durch die Tabellenfunktion ausgedrückt werden. ..
-Eine der Funktionen von DQN ist __ "Experience Replay" __. Dadurch werden __Zustände, Aktionen und Belohnungen __ zufällig abgerufen, um die __Zeitreihen-Natur der Eingabedaten zu entfernen.
Diesmal ist es abnormal. Vielen Dank, dass Sie so weit gelesen haben.