[PYTHON] Apprentissage par renforcement futur_1

** Apprentissage de renforcement futur **

Je suis Harima, une école supérieure de première année de maîtrise en sciences. Je vais résumer mon contenu d'apprentissage sous forme de mémo. Je suis désolé, c'est difficile à voir. Je voudrais savoir ce que vous ne comprenez pas.

Chap.0 Introduction

―― L'apprentissage intensifié est un cadre théorique permettant d'acquérir un comportement optimal par essais et erreurs basés sur l'expérience.

--ex) Vélo

――Comment collecter des données dans un monde où vous ne disposez pas de suffisamment de données et où il est coûteux de collecter des données (← → big data)


** Chap.1 Théorie de base de l'apprentissage par renforcement **


** 1.1 Qu'est-ce que l'apprentissage amélioré **

―― L'acteur qui agit est ** agent **, la cible sur laquelle travailler est ** environnement **, l'action est ** action **, et les éléments de l'environnement qui changent en conséquence sont ** état **

--Représente la ** politique ** de détermination de l'action de l'agent comme une fonction qui prend le résultat de l'observation comme entrée et sort l'action.

-Il est nécessaire de maximiser la récompense à long terme (** revenus **) obtenue en combinant ** récompense immédiate ** et ** récompense différée **.

--Calculer ** valeur ** comme une attente conditionnelle lorsque l'état actuel de l'agent, la politique à utiliser, etc. sont fixés

\mu_i=\frac{Somme des récompenses obtenues du bras i jusqu'à présent}{Nombre de fois où le bras i a été joué jusqu'à présent}

――Si vous avez un bras que vous n'avez pas encore sélectionné, sélectionnez-en un parmi ces bras

―― 1) Pensez à un ensemble «d'environnements imaginables» cohérents avec les connaissances actuelles ―― 2) Sélectionnez l'environnement «le plus pratique» de l'ensemble ―― 3) La prochaine action est la solution optimale dans l'environnement le plus pratique.

\mu'_i = \frac{Somme des récompenses obtenues du bras i jusqu'à présent+Kr_{\sup}}{Nombre de fois où le bras i a été joué jusqu'à présent+K}
\mu_i=\frac{Somme des récompenses obtenues du bras i jusqu'à présent}{Nombre de fois où le bras i a été sélectionné jusqu'à présent}\\
U_i=R \sqrt{\frac{2 \ln (Nombre total de lectures jusqu'à présent)}{Nombre de fois où le bras i a été joué jusqu'à présent}}

-Simuler quand $ K = 4 $.

-Recueillir des informations par vous-même et acquérir un bon comportement pour Robust dans divers environnements inconnus


Recommended Posts

Apprentissage par renforcement futur_2
Apprentissage par renforcement futur_1
[Introduction] Renforcer l'apprentissage
Apprentissage amélioré 1 installation de Python
Renforcer l'apprentissage 3 Installation d'OpenAI
[Renforcer l'apprentissage] Tâche de bandit
Apprentissage amélioré Python + Unity (apprentissage)
Renforcer l'apprentissage 1 édition introductive
Renforcer l'apprentissage 18 Colaboratory + Acrobat + ChainerRL
Renforcer l'apprentissage 17 Colaboratory + CartPole + ChainerRL
Renforcer l'apprentissage 28 collaboratif + OpenAI + chainerRL
Renforcer l'apprentissage 19 Colaboratory + Mountain_car + ChainerRL
Renforcement de l'apprentissage 2 Installation de chainerrl
[Renforcer l'apprentissage] Suivi par multi-agents
Renforcer l'apprentissage 6 First Chainer RL
Apprentissage amélioré à partir de Python
Renforcer l'apprentissage 20 Colaboratoire + Pendule + ChainerRL
Apprentissage par renforcement 5 Essayez de programmer CartPole?
Renforcer l'apprentissage Apprendre d'aujourd'hui
Renforcer l'apprentissage 4 CartPole première étape
Apprentissage par renforcement profond 1 Introduction au renforcement de l'apprentissage
Apprentissage par renforcement profond 2 Mise en œuvre de l'apprentissage par renforcement
DeepMind Enhanced Learning Framework Acme
Apprentissage par renforcement: accélérer l'itération de la valeur
TF2RL: bibliothèque d'apprentissage améliorée pour TensorFlow2.x
Apprentissage par renforcement 34 Créez des vidéos d'agent en continu
Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.
Construction d'un environnement d'apprentissage amélioré Python + Unity
Explorez le labyrinthe avec l'apprentissage augmenté
Renforcer l'apprentissage 8 Essayez d'utiliser l'interface utilisateur de Chainer
Renforcer l'apprentissage 24 Colaboratory + CartPole + ChainerRL + ACER
Apprentissage par renforcement 3 Méthode de planification dynamique / méthode TD
Deep Strengthening Learning 3 Édition pratique: Briser des blocs
J'ai essayé l'apprentissage par renforcement avec PyBrain
Apprenez en faisant! Apprentissage par renforcement profond_1
estimation personnelle en temps réel (apprentissage)
[Renforcer l'apprentissage] DQN avec votre propre bibliothèque
Apprentissage amélioré pour apprendre de zéro à profond
[Renforcer l'apprentissage] J'ai implémenté / expliqué R2D3 (Keras-RL)
Apprentissage par renforcement 2 Processus de décision de Markov, équation de Belman
Dossier d'apprentissage
<Cours> Deep Learning Day4 Renforcement de l'apprentissage / flux de tension
Dossier d'apprentissage n ° 3
Dossier d'apprentissage n ° 1
Apprentissage automatique
Renforcer l'apprentissage 14 Pendulum a été réalisé à ChainerRL.
apprentissage de python
Dossier d'apprentissage n ° 2
6/10 Contenu d'apprentissage
L'apprentissage en profondeur
apprentissage numpy-sigmoïde
[Python] Essayez facilement l'apprentissage amélioré (DQN) avec Keras-RL
Essayez l'algorithme d'apprentissage amélioré standard d'OpenAI PPO
[Renforcer l'apprentissage] Rechercher le meilleur itinéraire
Renforcer l'apprentissage 11 Essayez OpenAI acrobot avec ChainerRL.
Apprentissage par renforcement 10 Essayez d'utiliser un réseau neuronal formé.
[Renforcement de l'apprentissage] Commentaire de vengeance (Keras-RL) qui a tenté de mettre en œuvre / d'expliquer R2D2