Ich bin Harima, eine Master of Science-Graduiertenschule im ersten Jahr. Ich werde meine Lerninhalte als Memo zusammenfassen. Es tut mir leid, dass es schwer zu sehen ist. Ich würde gerne wissen, was Sie nicht verstehen.
Chap.0 Introduction
――Intensifiziertes Lernen ist ein theoretischer Rahmen für das Erreichen eines optimalen Verhaltens durch erfahrungsbasiertes Ausprobieren.
--ex) Fahrrad
――So sammeln Sie Daten in einer Welt, in der Sie nicht über genügend Daten verfügen und das Sammeln von Daten teuer ist (← → Big Data)
――Der handelnde Akteur ist ** Agent **, das zu handelnde Ziel ist ** Umgebung **, die Aktion ist ** Aktion ** und die Elemente der Umgebung, die sich entsprechend ändern, sind ** Zustand **.
** Belohnung ** (** Gewinn ** in Wirtschaft, ** Verlust ** oder ** Kosten ** in Steuerungstechnik) für einen einheitlichen Vergleich dessen, was in einer unbekannten Umgebung passiert
** Maximieren Sie die Gesamtbelohnungen, die Sie durch die Auswahl Ihrer Aktion in Ihrer Umgebung erhalten **
Repräsentiert die ** Richtlinie ** der Agentenaktionsbestimmung als eine Funktion, die das Beobachtungsergebnis als Eingabe verwendet und die Aktion ausgibt.
-Es ist notwendig, die langfristige Belohnung (** Einnahmen **) zu maximieren, die durch die Kombination von ** sofortiger Belohnung ** und ** verzögerter Belohnung ** erzielt wird.
--Berechnen Sie den ** Wert ** als bedingte Erwartung, wenn der aktuelle Status des Agenten, die zu verwendende Richtlinie usw. festgelegt sind
In den meisten Fällen wird davon ausgegangen, dass der Agent keine Vorkenntnisse über die Umgebung hat oder unvollständig ist.
** Kompromiss zwischen Suche und Verwendung ** ・ ・ ・ Wenn Sie versuchen, ** die bisherigen Lernergebnisse ** zu verwenden **, nimmt die ** Suche ** ab und die Wahrscheinlichkeit eines Verlusts steigt. Wenn Sie andererseits die Anzahl der Suchanfragen erhöhen, verhalten Sie sich anders als das beste Verhalten, und die Belohnung, die Sie erhalten, nimmt ab (die optimale Lösung ändert sich dynamisch in Abhängigkeit von der Menge und der Verzerrung der erhaltenen Informationen).
** Mehrarm-Banditenproblem ** ・ ・ ・ Der Arm des Spielautomaten beträgt $ K $, der Rückerstattungsbetrag beträgt $ R $ und die Gewinnwahrscheinlichkeit, wenn der Arm $ i $ abgezogen wird, beträgt $ p_i $ (Spieler) Kann den Wahrscheinlichkeitswert nicht im Voraus kennen)
** gieriger Algorithmus ** ・ ・ ・ Wählen Sie aus den bisherigen Ergebnissen den Arm mit dem höchsten erwarteten Wert aus
Wenn Sie einen Arm haben, den Sie noch nicht n-mal ausgewählt haben, wählen Sie diesen Arm aus.
Berechnen Sie andernfalls die bisherige durchschnittliche Belohnung für alle Waffen.
$ \ mu_i $ wählt den größten Arm
\mu_i=\frac{Summe der Belohnungen, die bisher von Arm I erhalten wurden}{Häufigkeit, mit der Arm I bisher gespielt wurde}
Da der nicht optimale Arm $ i '$ während des Versuchs häufig getroffen wurde, ist die Rückerstattungsrate $ p_ {i'} $ für den Arm $ i '$ höher als die Rückerstattungsrate $ p_i $ für den optimalen Arm $ i $. Falsch identifiziert als groß
Wenn Sie den Arm $ i '$ basierend auf der falschen optimalen Lösung weiter ziehen, werden mehr Ergebnisse des Arms $ i' $ gesammelt, und der Schätzfehler von $ p_ {i '} $ nimmt mit zunehmender Anzahl von Versuchen ab, und eines Tages machen Sie einen Fehler. Korrigierbar
Der ursprünglich optimale Arm $ i $ hat zum Zeitpunkt des Versuchs nicht viel getroffen, daher ist die Rückerstattungsrate $ p_i $ für den Arm $ i $ nicht optimal. Die Rückerstattungsrate $ p_ {i '} $ für den Arm $ i' $ Falsch als kleiner identifiziert
Auch wenn Sie den Arm $ i '$ basierend auf der falschen optimalen Lösung weiter ziehen, werden die Informationen des ursprünglich optimalen Arms $ i $ nicht erfasst, sodass der Schätzfehler auch dann nicht abnimmt, wenn Sie den Versuch wiederholen, und der Fehler nicht korrigiert werden kann.
** $ \ epsilon $ -greedy Algorithmus ** ・ ・ ・ Wähle einen zufälligen Arm mit der Wahrscheinlichkeit $ \ epsilon $ ($ 0 \ leq \ epsilon \ leq 1 $)
――Wenn Sie einen Arm haben, den Sie noch nicht ausgewählt haben, wählen Sie einen aus diesen Armen aus
Wählen Sie zufällig einen aus allen Armen mit einer Wahrscheinlichkeit von $ \ epsilon $ --Wählen Sie den Arm mit den höchsten durchschnittlichen Belohnungen von $ \ mu_i $ mit einer Wahrscheinlichkeit von $ 1- \ epsilon $
$ \ epsilon $ scheint eine effizientere Suchmethode als zufällig zu haben
** Optimistisch, wenn unsicher ** ... Wenn der erwartete Wert unsicher ist, sollte ein großer erwarteter Wert im Bereich der Unsicherheit angenommen werden.
―― 1) Stellen Sie sich eine Reihe von „vorstellbaren Umgebungen“ vor, die dem aktuellen Wissen entsprechen ―― 2) Wählen Sie die „bequemste“ Umgebung aus dem Set ―― 3) Die nächste Aktion ist die optimale Lösung in der bequemsten Umgebung.
Der Schwerpunkt liegt auf der Erforschung in den frühen Phasen des Lernens, und der Schwerpunkt liegt auf der Verwendung in den letzten Phasen.
** Optimistische Anfangswertmethode ** ・ ・ ・ Schätzen Sie die optimistische Erwartung des Werts jedes Arms in Form der Beobachtung des maximalen Belohnungswerts von jedem Arm $ K $ mal vor dem Lernen.
Belohnung top $ r_ \ sup $
Berücksichtigen Sie zusätzlich zu den während des Lernens beobachteten Ergebnissen, dass die Belohnung von $ r_ \ sup $ $ K $ mal von jedem Arm beobachtet wurde, und berechnen Sie den erwarteten Wert der Belohnung für jeden Arm.
$ \ mu'_i $ wählt den größten Arm
\mu'_i = \frac{Summe der Belohnungen, die bisher von Arm I erhalten wurden+Kr_{\sup}}{Häufigkeit, mit der Arm I bisher gespielt wurde+K}
** UCB-Algorithmus ** gradually ・ ・ Durch allmähliches Annähern der Wahrscheinlichkeit des Vertrauensintervalls an 1 wird die erforderliche Suche für alle Optionen durchgeführt, und die Kosten für die Suche und das Risiko eines Fehlers bei der optimalen Lösung können verringert werden.
$ R $: Differenz zwischen maximalem und minimalem Rückerstattungsbetrag
Wenn Sie einen Arm haben, den Sie noch nicht ausgewählt haben, wählen Sie einen aus
Berechnen Sie den erwarteten Wert der Belohnung, die Sie von jedem Arm erhalten
Berechnen Sie die halbe Breite des Konfidenzintervalls der Belohnung, die von jedem Arm $ i $ erhalten wird
$ x_i = \ mu_i + U_i $ wählt den größten Arm $ i $
\mu_i=\frac{Summe der Belohnungen, die bisher von Arm I erhalten wurden}{Häufigkeit, mit der Arm i bisher ausgewählt wurde}\\
U_i=R \sqrt{\frac{2 \ln (Gesamtzahl der bisherigen Spiele)}{Häufigkeit, mit der Arm I bisher gespielt wurde}}
-Simulieren Sie, wenn $ K = 4 $.
Die Rückerstattungen betragen 0,2, 0,3, 0,4 bzw. 0,5
Wiederholen Sie das 10.000-Stunden-Schritt-Lernen 10.000 Mal
Sammeln Sie selbst Informationen und erhalten Sie in verschiedenen unbekannten Umgebungen ein gutes Verhalten für Robust
Der geeignete Algorithmus hängt vom Problem ab (Auswahl des Algorithmus ist wichtig)
Recommended Posts