[PYTHON] Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.

On suppose que vous avez réalisé jusqu'à 12 apprentissages par renforcement. Je vais le faire sur Ubuntu 18.04. J'ai essayé de remplacer CartPole-v0 par MountainCar-v0 par le CartPole que j'ai créé plus tôt. Il semble que le niveau de difficulté augmente.

Je l'ai remplacé tel quel, mais quelque chose était différent. .. .. .. J'ai mis gamma à 0,99.

En regardant autour du site, il y a beaucoup d'apprentissage. Est-ce l'astuce d'en faire plus? Je l'ai réglé comme suit.

chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

J'ai mis epsilon = 0,003.

Cela a pris du temps d'apprentissage, mais j'ai pu le gravir.

Cliquez ici pour la courbe d'apprentissage de 2000. mountaincar_20191118124725.png

Voici la courbe de 10000 fois d'apprentissage. mountaincar_20191119123112.png

Si c'est 10 000 fois, cela prendra 85 minutes. J'aurais aimé avoir un ordinateur que je n'utilisais pas. Que dois-je faire avec un ordinateur portable que j'utilise habituellement?

Je pense à démarrer GPU avec l'objectif d'environ 30e fois. J'étudie la préparation, mais Chainer a un très petit nombre de programmes. Environ 8 Mo sur le disque dur. Le flux tenseur est important et supérieur à 300 Mo. Je veux utiliser Radeon comme GPU, mais je me demande si le chainer fonctionne.

Recommended Posts

Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.
Renforcer l'apprentissage 11 Essayez OpenAI acrobot avec ChainerRL.
Renforcer l'apprentissage 19 Colaboratory + Mountain_car + ChainerRL
Renforcer l'apprentissage 18 Colaboratory + Acrobat + ChainerRL
Essayez l'apprentissage en profondeur avec TensorFlow
Renforcer l'apprentissage 17 Colaboratory + CartPole + ChainerRL
Renforcer l'apprentissage 28 collaboratif + OpenAI + chainerRL
Renforcement de l'apprentissage 2 Installation de chainerrl
Apprentissage amélioré à partir de Python
Renforcer l'apprentissage 20 Colaboratoire + Pendule + ChainerRL
Essayez d'exécuter CNN avec ChainerRL
Essayez le Deep Learning avec FPGA
Apprentissage par renforcement 5 Essayez de programmer CartPole?
Apprentissage par renforcement 9 Remodelage magique ChainerRL
Essayez le machine learning à la légère avec Kaggle
Renforcer l'apprentissage 21 Colaboratoire + Pendule + ChainerRL + A2C
Essayez le Deep Learning avec les concombres FPGA-Select
Essayez l'apprentissage en profondeur avec TensorFlow Partie 2
Renforcer l'apprentissage 22 Colaboratory + CartPole + ChainerRL + A3C
Explorez le labyrinthe avec l'apprentissage augmenté
SVM essayant l'apprentissage automatique avec scikit-learn
Renforcer l'apprentissage 8 Essayez d'utiliser l'interface utilisateur de Chainer
Renforcer l'apprentissage 24 Colaboratory + CartPole + ChainerRL + ACER
Essayez l'apprentissage de la représentation commune avec le chainer
J'ai essayé l'apprentissage par renforcement profond (Double DQN) avec ChainerRL
[Renforcer l'apprentissage] DQN avec votre propre bibliothèque
Essayez les prévisions de prix Bitcoin avec Deep Learning
Essayez avec Chainer Deep Q Learning - Lancement
Essayez l'apprentissage profond de la génomique avec Kipoi
Renforcer l'apprentissage 14 Pendulum a été réalisé à ChainerRL.
[Python] Essayez facilement l'apprentissage amélioré (DQN) avec Keras-RL
Essayez l'algorithme d'apprentissage amélioré standard d'OpenAI PPO
[Introduction] Renforcer l'apprentissage
Apprentissage par renforcement futur_2
Apprentissage par renforcement futur_1
Apprentissage par renforcement 10 Essayez d'utiliser un réseau neuronal formé.
Renforcer l'apprentissage 12 Guide de démarrage rapide de ChainerRL Version Windows
Apprentissage par renforcement 27 chainerRL (+ chokozainerRL)
Défier la rupture avec le modèle Actor-Critic renforçant l'apprentissage
[Mac] J'ai essayé de renforcer l'apprentissage avec Open AI Baselines
Essayez de gratter avec Python.
Apprendre Python avec ChemTHEATER 03
"Orienté objet" appris avec python
Apprentissage amélioré 1 installation de Python
Apprendre Python avec ChemTHEATER 05-1
Renforcer l'apprentissage 3 Installation d'OpenAI
Je veux escalader une montagne avec l'apprentissage par renforcement
Renforcer l'apprentissage de la troisième ligne
Essayez de prédire le taux de change (FX) avec un apprentissage automatique non approfondi
Apprendre Python avec ChemTHEATER 02
Apprentissage par renforcement 37 Démarrez automatiquement avec l'enrubanneuse Atari
[Renforcer l'apprentissage] Tâche de bandit
Apprendre Python avec ChemTHEATER 01
Essayez SNN avec BindsNET
Apprentissage amélioré Python + Unity (apprentissage)
Essayez la régression avec TensorFlow
Renforcer l'apprentissage 1 édition introductive
Maintenant, essayons la reconnaissance faciale avec Chainer (phase d'apprentissage)