[PYTHON] Zukünftiges Verstärkungslernen_1

** Zukunftsstärkendes Lernen **

Ich bin Harima, eine Master of Science-Graduiertenschule im ersten Jahr. Ich werde meine Lerninhalte als Memo zusammenfassen. Es tut mir leid, dass es schwer zu sehen ist. Ich würde gerne wissen, was Sie nicht verstehen.

Chap.0 Introduction

――Intensifiziertes Lernen ist ein theoretischer Rahmen für das Erreichen eines optimalen Verhaltens durch erfahrungsbasiertes Ausprobieren.

--ex) Fahrrad

――So sammeln Sie Daten in einer Welt, in der Sie nicht über genügend Daten verfügen und das Sammeln von Daten teuer ist (← → Big Data)


** Kap.1 Grundlegende Theorie des verstärkenden Lernens **


** 1.1 Was ist verbessertes Lernen **

――Der handelnde Akteur ist ** Agent **, das zu handelnde Ziel ist ** Umgebung **, die Aktion ist ** Aktion ** und die Elemente der Umgebung, die sich entsprechend ändern, sind ** Zustand **.

-Es ist notwendig, die langfristige Belohnung (** Einnahmen **) zu maximieren, die durch die Kombination von ** sofortiger Belohnung ** und ** verzögerter Belohnung ** erzielt wird.

--Berechnen Sie den ** Wert ** als bedingte Erwartung, wenn der aktuelle Status des Agenten, die zu verwendende Richtlinie usw. festgelegt sind

\mu_i=\frac{Summe der Belohnungen, die bisher von Arm I erhalten wurden}{Häufigkeit, mit der Arm I bisher gespielt wurde}

――Wenn Sie einen Arm haben, den Sie noch nicht ausgewählt haben, wählen Sie einen aus diesen Armen aus

―― 1) Stellen Sie sich eine Reihe von „vorstellbaren Umgebungen“ vor, die dem aktuellen Wissen entsprechen ―― 2) Wählen Sie die „bequemste“ Umgebung aus dem Set ―― 3) Die nächste Aktion ist die optimale Lösung in der bequemsten Umgebung.

\mu'_i = \frac{Summe der Belohnungen, die bisher von Arm I erhalten wurden+Kr_{\sup}}{Häufigkeit, mit der Arm I bisher gespielt wurde+K}
\mu_i=\frac{Summe der Belohnungen, die bisher von Arm I erhalten wurden}{Häufigkeit, mit der Arm i bisher ausgewählt wurde}\\
U_i=R \sqrt{\frac{2 \ln (Gesamtzahl der bisherigen Spiele)}{Häufigkeit, mit der Arm I bisher gespielt wurde}}

-Simulieren Sie, wenn $ K = 4 $.


Recommended Posts

Zukünftiges Verstärkungslernen_2
Zukünftiges Verstärkungslernen_1
[Einführung] Stärkung des Lernens
Erweitertes Lernen 1 Python-Installation
Stärkung des Lernens 3 OpenAI-Installation
[Lernen stärken] Banditenaufgabe
Python + Unity Enhanced Learning (Lernen)
Stärkung des Lernens 1 Einführungsausgabe
Stärkung des Lernens 18 Colaboratory + Acrobat + ChainerRL
Stärkung des Lernens 17 Colaboratory + CartPole + ChainerRL
Stärkung des Lernens 28 colaboratory + OpenAI + chainerRL
Stärkung des Lernens 19 Colaboratory + Mountain_car + ChainerRL
Stärkung des Lernens 2 Installation von Chainerrl
[Lernen stärken] Tracking durch Multi-Agent
Stärkung des Lernens 6 First Chainer RL
Verbessertes Lernen ab Python
Stärkung des Lernens 20 Colaboratory + Pendulum + ChainerRL
Verstärkungslernen 5 Versuchen Sie, CartPole zu programmieren?
Lernen stärken Lernen Sie von heute
Stärkung des Lernens 4 CartPole erster Schritt
Tiefe Stärkung des Lernens 1 Einführung in die Stärkung des Lernens
Tiefes Lernen der Verstärkung 2 Implementierung des Lernens der Verstärkung
DeepMind Enhanced Learning Framework Acme
Verstärktes Lernen: Beschleunigen Sie die Wertiteration
TF2RL: Erweiterte Lernbibliothek für TensorFlow2.x
Verstärkungslernen 34 Erstellen Sie fortlaufende Agentenvideos
Lernen stärken 13 Probieren Sie Mountain_car mit ChainerRL aus.
Python + Unity Verbesserte Erstellung von Lernumgebungen
Entdecken Sie das Labyrinth mit erweitertem Lernen
Stärkung des Lernens 8 Versuchen Sie, die Chainer-Benutzeroberfläche zu verwenden
Stärkung des Lernens 24 Colaboratory + CartPole + ChainerRL + ACER
Verstärkungslernen 3 Dynamische Planungsmethode / TD-Methode
Deep Strengthing Learning 3 Praktische Ausgabe: Block Breaking
Ich habe versucht, mit PyBrain verstärkt zu lernen
Lerne beim Machen! Tiefes Verstärkungslernen_1
Echtzeit-Persönliche Schätzung (Lernen)
[Stärkung des Lernens] DQN mit Ihrer eigenen Bibliothek
Verbessertes Lernen, um von null bis tief zu lernen
[Lernen stärken] Ich habe R2D3 (Keras-RL) implementiert / erklärt.
Verstärkungslernen 2 Markov-Entscheidungsprozess, Belman-Gleichung
Lernaufzeichnung
<Kurs> Deep Learning Day4 Stärkung des Lernens / Tensorflusses
Lernrekord Nr. 3
Lernrekord Nr. 1
Maschinelles Lernen
Stärkung des Lernens 14 Pendel wurde bei ChainerRL durchgeführt.
Python lernen
Lernrekord Nr. 2
6/10 Lerninhalte
Tiefes Lernen
Numpy-Sigmoid-Lernen
[Python] Probieren Sie mit Keras-RL ganz einfach erweitertes Lernen (DQN) aus
Probieren Sie den erweiterten Standard-Lernalgorithmus PPO von OpenAI aus
[Lernen stärken] Suche nach der besten Route
Stärkung des Lernens 11 Probieren Sie OpenAI Acrobot mit ChainerRL aus.
Verstärkungslernen 10 Versuchen Sie es mit einem trainierten neuronalen Netz.
[Lernen stärken] Rache-Kommentar (Keras-RL), der versucht hat, R2D2 zu implementieren / zu erklären