[PYTHON] Zukünftiges Verstärkungslernen_2

** Zukunftsstärkendes Lernen **

Ich bin Harima, eine Master of Science-Graduiertenschule im ersten Jahr. Ich werde meine Lerninhalte als Memo zusammenfassen. Es tut mir leid, dass es schwer zu sehen ist. Ich würde gerne wissen, was Sie nicht verstehen.


** Kap.1 Grundlegende Theorie des verstärkenden Lernens **


** 1.2 Komponenten des verbesserten Lernens **


――Die Bestimmung der Belohnungsfunktion ist ein wichtiges Thema


--Lassen Sie die Aktionsmenge $ A (s) $ eine Menge aller auswählbaren Aktionen in einem bestimmten Zustand $ s $ sein $A(s)={a_1,a_2,...,a_M}$



P_0(s)=\begin{cases}1 ,,,,,, (s=s_1) \ 0 ,,,,,, (otherwise) \end{cases}

      
      
 - ** Zeitschritte und Episoden **

 - ** Zeitschritt ** ・ ・ ・ Grundlegende Zeiteinheit in der Interaktion zwischen Agent und Umgebung
      
 - ** Episode ** ・ ・ ・ Die Zeit vom Anfang bis zum Ende der Aufgabe ist zusammengefasst und besteht aus mehreren Zeitschritten.
      
 - ** Was ist eine gute Politik **
   
 - ** Einnahmen ** ・ ・ ・ Kumulative Belohnung in einem bestimmten Zeitraum (Summe der Belohnungen im Zeitraum)
      
 - Die Belohnung $ R_t $, die im Zeitschritt $ t $ erhalten wurde, die Abschnittslänge beträgt $ T $ und das Einkommen $ G_t $ ist wie folgt definiert.
      
      ```math
      G_t=\sum^{T-1}_{\tau=0}{R_{t+1+\tau}}
      ```

 - Definieren Sie Gewinne längerfristig
      
      ```math
      G_t=\lim_{T\rightarrow \infty} \frac{1}{T}\sum^{T-1}_{\tau=0}{R_{t+1+\tau}}
      ```
 - ** Discount Reward Sum ** ** ・ ・ ・ Gewinn, der zukünftige Unsicherheiten in Form von Diskontierungsvergütungen ausdrückt
      
      ```math
      G_t=\sum^{\infty}_{\tau=0}\gamma^{\tau}R_{t+1+\tau}=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...
      ```
 --Diskontsatz $ \ gamma (0 \ le \ gamma \ le 1) $ ist eine Konstante, die angibt, wie viel die Zukunft abgezinst wird
      
 ――Profit ist ein Index zur Bewertung der aus einer langfristigen Perspektive erzielten Belohnungen.
      
 - Nehmen Sie den erwarteten Wert des Gewinns unter der Bedingung des Staates und nennen Sie dies den ** Staatswert **.
      
 - ** Zustandswert ** ・ ・ ・ Erwarteter Wert des Gewinns, der erzielt wird, wenn Maßnahmen gemäß der Richtlinie $ \ pi $ eines bestimmten Staates beschlossen werden
      
      ```math
      V^{\pi}(s)=E^{\pi}[ G_t|S_t=s ]
      ```
 - "Erwarteter Wert unter Richtlinie $ \ pi $" ... Erwarteter Wert, wenn der Agent die Aktion basierend auf der Richtlinie $ \ pi $ aus dem Status $ s $ im Zeitschritt $ t $ entscheidet
      
 - Betrachten Sie ein Beispiel für endliche Intervalleinnahmen von $ T = 1 $
   
 ――Die zu berücksichtigenden Gewinne sind wie folgt
      
      ```math
G_t=R_{t+1}

P(S_{t+1}=s',A_t=a|S_t=s)=P(S_{t+1}=s'|S_t=s,A_t=a) \pi(a|s)

 - Der Statuswert lautet wie folgt, indem der erwartete Wert mit dem Status $ S_t $ als Bedingung verwendet wird.
      
      $$\begin{eqnarray*} V^{\pi}(s)&=& E^{\pi}[G_t|S_t=s] \\ 
                                   &=& \sum_{s' \in S} \sum_{a \in A(s)} P(S_{t+1}=s',A_t=a|S_t=s) r(s,a,s') \\
                                    &=& \sum_{s' \in S} \sum_{a \in A(s)} P(S_{t+1}=s'|S_t=s,A_t=a) \pi(a|s) r(s,a,s') \end{eqnarray*} $$
                  
 - Betrachten Sie ein Beispiel für endliche Segmentumsätze mit $ T = 2 $
   
 ――Die zu berücksichtigenden Gewinne sind wie folgt
      
      ```math
G_t=R_{t+1}+R_{t+2}

\begin{eqnarray*} V^{\pi}(s) &=& E[G_t|S_t=s]=E^\pi[R_{t+1}+R_{t+2}|S_t=s] \ &=& \sum_{s''\in S}\sum_{a'\in A(s)}\sum_{s'\in S}\sum_{a\in A(s)} P(S_{t+2}=s'',A_{t+1}=a',S_{t+1}=s',A_t=a|S_t=s){r(s,a,s')+r(s',a',s'')} \ &=& \sum_{s''\in S}\sum_{a'\in A(s)}\sum_{s'\in S}\sum_{a\in A(s)} P(S_{t+2}=s''|S_{t+1}=s',A_{t+1}=a')\pi(a'|s')×P(S_{t+1}=s'|S_t=s,A_t=a)\pi(a|s){r(s,a,s')+r(s',a',s'')} \end{eqnarray*}

 -Wenn $ \ pi $ repariert und $ s $ geändert wird
   
 - Bewerten Sie die erwarteten Gewinne, wenn Sie Maßnahmen auf der Grundlage bestimmter fester Maßnahmen für verschiedene Bedingungen entscheiden
 - Es kann als Index verwendet werden, um die Güte des Zustands unter einem bestimmten Maß $ \ pi $ (** Zustandswertfunktion **) anzuzeigen.

 -Wenn $ s $ repariert und $ \ pi $ geändert wird

 ――Bewertung der Gewinne, die voraussichtlich erzielt werden, wenn ab einem bestimmten Staat Maßnahmen für verschiedene Maßnahmen ergriffen werden
 ――Indikator, der die Güte der Richtlinie anzeigt, wenn von einem bestimmten Zustand ausgeht $ s $
   
$$
\forall s\in S,\,\,\,\,\, V^\pi(s) \ge V^{{\pi}^{'}}(s)\\ 
\exists s\in S,\,\,\,\,\, V^\pi(s) >  V^{{\pi}^{'}}(s)
$$  

 - ** Optimale Politik **
   
 - ** Optimale Zustandswerte ** ・ ・ ・ $ V ^ * (s) $
      
      ```math
\forall s\in S,\,\,\,\,\, V^*(s)=V^{{\pi}^{*}}(s)=\max_\pi V^\pi (s)

Q^\pi(s,a)=E^\pi[G_t|S_t=s,A_t=a]

 -Für $ A_t, S_ {t + 1}, A_ {t + 1} $ nehmen Sie den erwarteten Wert entsprechend ihrer Erscheinungswahrscheinlichkeit
 ――Eine Flugbahn, in der jeder Zustand und jede Aktion miteinander verbunden sind
      
---
      
 -Profit für einen endlichen Abschnitt von $ T = 1 $
   
      ```math
X_1=\{\Xi=(s,a,s')|s\in S,a\in A,s'\in S\}

-Call $ \ Xi $ ** Orbit **

X_1|_s={\Xi=(s,a,s')|a\in A,s'\in S}

 - Eine Reihe von Umlaufbahnen mit festem Ausgangszustand und Verhalten
      
      ```math
X_1|_s(s,a)=\{\Xi=(s,a,s')|s'\in S\}

G_t=G_t(\Xi)

      ```math
V^\pi(s)=\sum_{\Xi\in X_1|_s}P(\Xi)G_t(\Xi)\\
      Q^\pi(s,a)=\sum_{\Xi\in X_1|_{(s,a)}}P(\Xi)G_t(\Xi)

-Wenn $ T = 2 $

  ```math

X_2|_s={\Xi=(s,a,s',a',s'')|a\in A,s'\in S,a'\in A,s''\in S}

      ```math
X_2|_{(s,a)}=\{\Xi=(s,a,s',a',s'')|s'\in S,a'\in A,s''\in S\}

X_1|_{s_1}={(s_1,a_1,s_3),(s_1,a_2,s_2)}

      ```math
X_2|_{s_1}=\{(s_1,a_1,s_3,a_1,s_4),(s_1,a_1,s_3,a_2,s_1),(s_1,a_2,s_2,a_1,s_1),(s_1,a_2,s_2,a_2,s_4)\}

X_1|_{(s_1,a_1)}={(s_1,a_1,s_3)}

      ```math
X_2|_{(s_1,a_1)}=\{(s_1,a_1,s_3,a_1,s_4),(s_1,a_1,s_3,a_2,s_1)\}

――Wie finde ich eine gute Politik?

\pi(a|s)=\begin{cases}1 ,,,,,, (a=\arg \max_aQ(s,a)) \ 0 ,,,,,, (otherwise) \end{cases}

 - Schätzen Sie die optimale Aktionswertfunktion
 ―― Manchmal ist es notwendig, wahrscheinlich eine Aktion auszuwählen, die zu diesem Zeitpunkt nicht immer die beste ist.
      
 - ** $ \ epsilon $ -grüne Richtlinie **
      
      ```math
\pi(a|s)=\begin{cases}1-\epsilon+\frac{\epsilon}{|A(s)|} \,\,\,\,\,\, (a= \arg \max_{a} Q(s,a)) \\\frac{\epsilon}{|A(s)|}  \,\,\,\,\,\, (otherwise) \end{cases}

\pi(a|s)=\frac{\exp(Q(s,a)/T)}{\sum_{b\in A}\exp(Q(s,b)/T)}

 - $ T $ ist der Temperaturparameter


Recommended Posts

Zukünftiges Verstärkungslernen_2
Zukünftiges Verstärkungslernen_1
[Einführung] Stärkung des Lernens
Erweitertes Lernen 1 Python-Installation
Stärkung des Lernens 3 OpenAI-Installation
Stärkung des Lernens der dritten Zeile
[Lernen stärken] Banditenaufgabe
Python + Unity Enhanced Learning (Lernen)
Stärkung des Lernens 1 Einführungsausgabe
Stärkung des Lernens 18 Colaboratory + Acrobat + ChainerRL
Verbessertes Lernen 7 Protokollieren Sie die Ausgabe von Lerndaten
Stärkung des Lernens 17 Colaboratory + CartPole + ChainerRL
Stärkung des Lernens 28 colaboratory + OpenAI + chainerRL
Stärkung des Lernens 19 Colaboratory + Mountain_car + ChainerRL
Stärkung des Lernens 2 Installation von Chainerrl
[Lernen stärken] Tracking durch Multi-Agent
Stärkung des Lernens 6 First Chainer RL
Verbessertes Lernen ab Python
Stärkung des Lernens 20 Colaboratory + Pendulum + ChainerRL
Verstärkungslernen 5 Versuchen Sie, CartPole zu programmieren?
Verstärkungslernen 9 ChainerRL Magic Remodeling
Stärkung des Lernens 4 CartPole erster Schritt
Tiefe Stärkung des Lernens 1 Einführung in die Stärkung des Lernens
Tiefes Lernen der Verstärkung 2 Implementierung des Lernens der Verstärkung
DeepMind Enhanced Learning Framework Acme
Verstärktes Lernen: Beschleunigen Sie die Wertiteration
Stärkung des Lernens 21 Labor + Pendel + ChainerRL + A2C
TF2RL: Erweiterte Lernbibliothek für TensorFlow2.x
Verstärkungslernen 34 Erstellen Sie fortlaufende Agentenvideos
Lernen stärken 13 Probieren Sie Mountain_car mit ChainerRL aus.
Stärkung des Lernens 22 Colaboratory + CartPole + ChainerRL + A3C
Entdecken Sie das Labyrinth mit erweitertem Lernen
Stärkung des Lernens 8 Versuchen Sie, die Chainer-Benutzeroberfläche zu verwenden
Stärkung des Lernens 24 Colaboratory + CartPole + ChainerRL + ACER
Verstärkungslernen 3 Dynamische Planungsmethode / TD-Methode
Deep Strengthing Learning 3 Praktische Ausgabe: Block Breaking
Ich habe versucht, mit PyBrain verstärkt zu lernen
Lerne beim Machen! Tiefes Verstärkungslernen_1
Verbessertes Lernen, um von null bis tief zu lernen
[Lernen stärken] Ich habe R2D3 (Keras-RL) implementiert / erklärt.
Verstärkungslernen 2 Markov-Entscheidungsprozess, Belman-Gleichung
Lernaufzeichnung
<Kurs> Deep Learning Day4 Stärkung des Lernens / Tensorflusses
Lernrekord Nr. 1
Maschinelles Lernen
Stärkung des Lernens 14 Pendel wurde bei ChainerRL durchgeführt.
Python lernen
Lernrekord Nr. 2
6/10 Lerninhalte
Tiefes Lernen
Numpy-Sigmoid-Lernen
[Python] Probieren Sie mit Keras-RL ganz einfach erweitertes Lernen (DQN) aus
Probieren Sie den erweiterten Standard-Lernalgorithmus PPO von OpenAI aus
[Lernen stärken] Suche nach der besten Route
Stärkung des Lernens 11 Probieren Sie OpenAI Acrobot mit ChainerRL aus.
Verstärkungslernen 10 Versuchen Sie es mit einem trainierten neuronalen Netz.
[Lernen stärken] Rache-Kommentar (Keras-RL), der versucht hat, R2D2 zu implementieren / zu erklären