Ich bin Harima, eine Master of Science-Graduiertenschule im ersten Jahr. Ich werde meine Lerninhalte als Memo zusammenfassen. Es tut mir leid, dass es schwer zu sehen ist. Ich würde gerne wissen, was Sie nicht verstehen.
Der Rahmen für erweitertes Lernen ist ** Agent **, ** Umgebung **, ** Interaktion **
Erhalten und liefern Sie stündlich Status, Aktionen und Belohnungen
** Maßnahmen ** ・ ・ ・ Regeln für Agenten, um ihre Aktionen zu entscheiden
Entwerfen Sie einen Algorithmus zur Verbesserung der Richtlinie, indem der Agent durch ** "Aktion" ** auf die Umgebung einwirkt und das Ergebnis in Form von ** "Belohnung" ** und ** "Status" ** beobachtet.
――Die Bestimmung der Belohnungsfunktion ist ein wichtiges Thema
** Markov-Bestimmungsprozess ** ・ ・ ・ Zustandsraum $ S $, Aktionsraum $ A (s) $, Anfangszustandsverteilung $ P_0 $, Zustandsübergangswahrscheinlichkeit $ P (s '| s, a) $, Belohnungsfunktion Wahrscheinlichkeitsprozess beschrieben durch $ r (s, a, s ') $
Lassen Sie den Zustandssatz $ S $ ein Satz aller Zustände sein
Lassen Sie $ s $ die Variable sein, die die Elemente dieser Menge darstellt -Der Zustand, der aus Zuständen vom Typ $ N $ besteht, ist wie folgt
S={s_1,s_2,...,s_N}
Lassen Sie $ S_t $ die stochastische Variable sein, die den Zustand zum Zeitschritt $ t $ darstellt
Wenn Sie die Zustände in der Reihenfolge ab dem Zeitschritt 0 schreiben, ist dies wie folgt
--Lassen Sie die Aktionsmenge $ A (s) $ eine Menge aller auswählbaren Aktionen in einem bestimmten Zustand $ s $ sein
Lassen Sie $ A_t $ die Wahrscheinlichkeitsvariable sein, die das Verhalten des Agenten darstellt, das im Zeitschritt $ t $ im Zustand $ S_t $ bestimmt wurde.
Wenn Sie die Zustände in der Reihenfolge ab dem Zeitschritt 0 schreiben, ist dies wie folgt
Lassen Sie $ R_t + 1 $ die Wahrscheinlichkeitsvariable sein, die die Belohnung darstellt, die von $ S_t $, $ A_t $, $ S_ {t + 1} $ abhängt.
Nehmen Sie eine der $ R $ -Sätze aller reellen Zahlen
** Modell **
Die Umgebung bestimmt wahrscheinlich den Zustand (Anfangszustand) zum Anfangszeitpunkt (** Verteilung des Anfangszustands **).
Der nächste Zustand wird wahrscheinlich durch den aktuellen Zustand und das aktuelle Verhalten bestimmt
Wenn der Agent die Aktion $ a $ im Zustand $ s $ entscheidet, wird die Wahrscheinlichkeit, dass der Zustand in $ s '$ übergeht, wie folgt angegeben.
Der Zustand $ S_ {t + 1} $ im Schritt $ t + 1 $ wird wie folgt bestimmt.
** Markov-Eigenschaft ** ・ ・ ・ Die Eigenschaft, dass die Übergangswahrscheinlichkeit nur durch den unmittelbar vorhergehenden Zustand bestimmt wird
Die Umgebung bestimmt die Belohnung $ R_ {t + 1} $ gemäß dem aktuellen Status $ S_t $, der Aktion $ A_t $ und dem nächsten Status $ S_ {t + 1}
Die Aktion wird basierend auf der Richtlinie des Agenten bestimmt ($ \ pi $). ――In einem bestimmten Zustand wird eine Richtlinie, in der Aktionen probabilistisch bestimmt werden, als probabilistische Richtlinie bezeichnet.
Unter der Wahrscheinlichkeitsrichtlinie $ \ pi $ wird die Wahrscheinlichkeit, dass eine bestimmte Aktion $ a $ in einem bestimmten Zustand $ s $ ausgewählt wird, als $ \ pi (a | s) $ ausgedrückt.
** Dreiäugig ** -Jeder Spieler legt einen Stein auf das $ 9 $ Quadrat von $ 3 x 3 $ und gewinnt, wenn seine Steine in einer geraden Linie ausgerichtet sind.
Der Agent gibt dem Gewinnbrett eine positive Belohnung und dem Verlierbrett eine negative Belohnung.
Die Verteilung des Anfangszustands ist wie folgt
P_0(s)=\begin{cases}1 ,,,,,, (s=s_1) \ 0 ,,,,,, (otherwise) \end{cases}
- ** Zeitschritte und Episoden **
- ** Zeitschritt ** ・ ・ ・ Grundlegende Zeiteinheit in der Interaktion zwischen Agent und Umgebung
- ** Episode ** ・ ・ ・ Die Zeit vom Anfang bis zum Ende der Aufgabe ist zusammengefasst und besteht aus mehreren Zeitschritten.
- ** Was ist eine gute Politik **
- ** Einnahmen ** ・ ・ ・ Kumulative Belohnung in einem bestimmten Zeitraum (Summe der Belohnungen im Zeitraum)
- Die Belohnung $ R_t $, die im Zeitschritt $ t $ erhalten wurde, die Abschnittslänge beträgt $ T $ und das Einkommen $ G_t $ ist wie folgt definiert.
```math
G_t=\sum^{T-1}_{\tau=0}{R_{t+1+\tau}}
```
- Definieren Sie Gewinne längerfristig
```math
G_t=\lim_{T\rightarrow \infty} \frac{1}{T}\sum^{T-1}_{\tau=0}{R_{t+1+\tau}}
```
- ** Discount Reward Sum ** ** ・ ・ ・ Gewinn, der zukünftige Unsicherheiten in Form von Diskontierungsvergütungen ausdrückt
```math
G_t=\sum^{\infty}_{\tau=0}\gamma^{\tau}R_{t+1+\tau}=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...
```
--Diskontsatz $ \ gamma (0 \ le \ gamma \ le 1) $ ist eine Konstante, die angibt, wie viel die Zukunft abgezinst wird
――Profit ist ein Index zur Bewertung der aus einer langfristigen Perspektive erzielten Belohnungen.
- Nehmen Sie den erwarteten Wert des Gewinns unter der Bedingung des Staates und nennen Sie dies den ** Staatswert **.
- ** Zustandswert ** ・ ・ ・ Erwarteter Wert des Gewinns, der erzielt wird, wenn Maßnahmen gemäß der Richtlinie $ \ pi $ eines bestimmten Staates beschlossen werden
```math
V^{\pi}(s)=E^{\pi}[ G_t|S_t=s ]
```
- "Erwarteter Wert unter Richtlinie $ \ pi $" ... Erwarteter Wert, wenn der Agent die Aktion basierend auf der Richtlinie $ \ pi $ aus dem Status $ s $ im Zeitschritt $ t $ entscheidet
- Betrachten Sie ein Beispiel für endliche Intervalleinnahmen von $ T = 1 $
――Die zu berücksichtigenden Gewinne sind wie folgt
```math
G_t=R_{t+1}
Die Wahrscheinlichkeit, dass der Zustand im Zeitschritt $ t + 1 $ $ s '$ ist, ist wie folgt
P(S_{t+1}=s',A_t=a|S_t=s)=P(S_{t+1}=s'|S_t=s,A_t=a) \pi(a|s)
- Der Statuswert lautet wie folgt, indem der erwartete Wert mit dem Status $ S_t $ als Bedingung verwendet wird.
$$\begin{eqnarray*} V^{\pi}(s)&=& E^{\pi}[G_t|S_t=s] \\
&=& \sum_{s' \in S} \sum_{a \in A(s)} P(S_{t+1}=s',A_t=a|S_t=s) r(s,a,s') \\
&=& \sum_{s' \in S} \sum_{a \in A(s)} P(S_{t+1}=s'|S_t=s,A_t=a) \pi(a|s) r(s,a,s') \end{eqnarray*} $$
- Betrachten Sie ein Beispiel für endliche Segmentumsätze mit $ T = 2 $
――Die zu berücksichtigenden Gewinne sind wie folgt
```math
G_t=R_{t+1}+R_{t+2}
Erwartete Werte sind wie folgt
\begin{eqnarray*} V^{\pi}(s) &=& E[G_t|S_t=s]=E^\pi[R_{t+1}+R_{t+2}|S_t=s] \ &=& \sum_{s''\in S}\sum_{a'\in A(s)}\sum_{s'\in S}\sum_{a\in A(s)} P(S_{t+2}=s'',A_{t+1}=a',S_{t+1}=s',A_t=a|S_t=s){r(s,a,s')+r(s',a',s'')} \ &=& \sum_{s''\in S}\sum_{a'\in A(s)}\sum_{s'\in S}\sum_{a\in A(s)} P(S_{t+2}=s''|S_{t+1}=s',A_{t+1}=a')\pi(a'|s')×P(S_{t+1}=s'|S_t=s,A_t=a)\pi(a|s){r(s,a,s')+r(s',a',s'')} \end{eqnarray*}
-Wenn $ \ pi $ repariert und $ s $ geändert wird
- Bewerten Sie die erwarteten Gewinne, wenn Sie Maßnahmen auf der Grundlage bestimmter fester Maßnahmen für verschiedene Bedingungen entscheiden
- Es kann als Index verwendet werden, um die Güte des Zustands unter einem bestimmten Maß $ \ pi $ (** Zustandswertfunktion **) anzuzeigen.
-Wenn $ s $ repariert und $ \ pi $ geändert wird
――Bewertung der Gewinne, die voraussichtlich erzielt werden, wenn ab einem bestimmten Staat Maßnahmen für verschiedene Maßnahmen ergriffen werden
――Indikator, der die Güte der Richtlinie anzeigt, wenn von einem bestimmten Zustand ausgeht $ s $
$$
\forall s\in S,\,\,\,\,\, V^\pi(s) \ge V^{{\pi}^{'}}(s)\\
\exists s\in S,\,\,\,\,\, V^\pi(s) > V^{{\pi}^{'}}(s)
$$
- ** Optimale Politik **
- ** Optimale Zustandswerte ** ・ ・ ・ $ V ^ * (s) $
```math
\forall s\in S,\,\,\,\,\, V^*(s)=V^{{\pi}^{*}}(s)=\max_\pi V^\pi (s)
** Anzahl der Verhaltenswerte ** ・ ・ Q $ Q ^ \ pi $
Q^\pi(s,a)=E^\pi[G_t|S_t=s,A_t=a]
-Für $ A_t, S_ {t + 1}, A_ {t + 1} $ nehmen Sie den erwarteten Wert entsprechend ihrer Erscheinungswahrscheinlichkeit
――Eine Flugbahn, in der jeder Zustand und jede Aktion miteinander verbunden sind
---
-Profit für einen endlichen Abschnitt von $ T = 1 $
```math
X_1=\{\Xi=(s,a,s')|s\in S,a\in A,s'\in S\}
-Call $ \ Xi $ ** Orbit **
Orbital mit festem Ausgangszustand
X_1|_s={\Xi=(s,a,s')|a\in A,s'\in S}
- Eine Reihe von Umlaufbahnen mit festem Ausgangszustand und Verhalten
```math
X_1|_s(s,a)=\{\Xi=(s,a,s')|s'\in S\}
Betrachten Sie den Gewinn als Funktion der Umlaufbahn
G_t=G_t(\Xi)
```math
V^\pi(s)=\sum_{\Xi\in X_1|_s}P(\Xi)G_t(\Xi)\\
Q^\pi(s,a)=\sum_{\Xi\in X_1|_{(s,a)}}P(\Xi)G_t(\Xi)
-Wenn $ T = 2 $
```math
X_2|_s={\Xi=(s,a,s',a',s'')|a\in A,s'\in S,a'\in A,s''\in S}
```math
X_2|_{(s,a)}=\{\Xi=(s,a,s',a',s'')|s'\in S,a'\in A,s''\in S\}
In der in Abbildung 1.2.5 gezeigten Umgebung ist der Satz von Umlaufbahnen, der bei der Berechnung des Zustandswerts zu berücksichtigen ist, wie folgt.
X_1|_{s_1}={(s_1,a_1,s_3),(s_1,a_2,s_2)}
```math
X_2|_{s_1}=\{(s_1,a_1,s_3,a_1,s_4),(s_1,a_1,s_3,a_2,s_1),(s_1,a_2,s_2,a_1,s_1),(s_1,a_2,s_2,a_2,s_4)\}
Das Folgende ist eine Reihe von Umlaufbahnen, die bei der Suche nach einem Aktionswert berücksichtigt werden müssen.
X_1|_{(s_1,a_1)}={(s_1,a_1,s_3)}
```math
X_2|_{(s_1,a_1)}=\{(s_1,a_1,s_3,a_1,s_4),(s_1,a_1,s_3,a_2,s_1)\}
――Wie finde ich eine gute Politik?
** gierige Politik **
\pi(a|s)=\begin{cases}1 ,,,,,, (a=\arg \max_aQ(s,a)) \ 0 ,,,,,, (otherwise) \end{cases}
- Schätzen Sie die optimale Aktionswertfunktion
―― Manchmal ist es notwendig, wahrscheinlich eine Aktion auszuwählen, die zu diesem Zeitpunkt nicht immer die beste ist.
- ** $ \ epsilon $ -grüne Richtlinie **
```math
\pi(a|s)=\begin{cases}1-\epsilon+\frac{\epsilon}{|A(s)|} \,\,\,\,\,\, (a= \arg \max_{a} Q(s,a)) \\\frac{\epsilon}{|A(s)|} \,\,\,\,\,\, (otherwise) \end{cases}
** Boltzmann (Softmax) -Richtlinie ** probability ・ ・ Die Auswahlwahrscheinlichkeit folgt der Gibbs-Verteilung
\pi(a|s)=\frac{\exp(Q(s,a)/T)}{\sum_{b\in A}\exp(Q(s,b)/T)}
- $ T $ ist der Temperaturparameter
Recommended Posts