[PYTHON] Renforcer l'apprentissage 28 collaboratif + OpenAI + chainerRL

(Le chokozainer RL a été mis à jour le 8 décembre 2019.)

Il est destiné aux débutants en IA, des lycéens aux étudiants universitaires. J'ai écrit jusqu'à 27 séries d'apprentissage par renforcement. C'était environ un mois parce que c'était un rythme par jour. J'écrirai un résumé qui facilitera le départ d'ici. Il n'y a rien de nouveau.

Si vous souhaitez démarrer facilement l'apprentissage automatique en utilisant le GPU, la collaboration est gratuite, je le recommande donc. Pas besoin d'installation gênante. Cependant, cela seul ne fonctionnera pas, alors résumons la procédure. J'ai choisi chainerRL comme cadre. J'aime tensorflow, mais je ne l'ai pas utilisé, alors ... Je pense que je vais bientôt essayer d'utiliser tensorflow. Je vais l'écrire au milieu, mais regardons le code source autant que possible. Il est publié sur github. Le nom de la fonction est facile à comprendre, donc je pense qu'il est facile à comprendre. Le chainer est facile à lire en anglais, probablement parce qu'il est fabriqué par des Japonais. Ou plutôt, si vous le traduisez en japonais avec du chrome, ce sera du vrai japonais. Et le tensorflow? ?? ?? est. Nous avons publié chokozainerRL, qui est un wrapper pour chainerRL. Je n'ai pas fait grand-chose, mais j'espère que cela sera utile pour "l'apprentissage humain" dans l'apprentissage par renforcement.

1 Obtenez un compte Google

Veuillez créer à partir d'ici.

Créez un compte Google https://support.google.com/accounts/answer/27441?hl=ja

2 Ouvrez la page Colaboratory

Ouvrez d'ici. https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja Ajoutons-le à vos favoris.

3 Ouvrez la page d'exemple chokozainer et enregistrez-la dans votre propre dossier

3-1 Ouvrez le notebook

open_toolbar.png

Bloc-notes ouvert par fichier select_abc.png

Sélectionnez l'onglet GitHub. Rechercher avec chokozainer, ipynbs/abc.ipynb Choisir.

L'abc.ipynb ouvert ne peut pas être utilisé tel quel, alors faites une copie sur le lecteur. select_save.png

Puis renommez le fichier copié. change.png

4 Exécutez le notebook.

L'exécution d'un notebook est expliquée en détail sur divers sites, alors faites-le vous-même. Avant d'apprendre, vous ne pouviez faire que quelques étapes, mais après l'apprentissage, vous pouvez voir que vous pouvez équilibrer jusqu'à 200 étapes de réglage. Vous pouvez faire une vidéo comme celle-ci. videoimage.png

Le résultat de l'exécution d'apprentissage ressemble à ceci. result.png

Puisque le temps écoulé est le temps d'exécution (en secondes), l'apprentissage sera terminé en 15 minutes environ.

Recommended Posts

Renforcer l'apprentissage 28 collaboratif + OpenAI + chainerRL
Renforcer l'apprentissage 18 Colaboratory + Acrobat + ChainerRL
Renforcer l'apprentissage 17 Colaboratory + CartPole + ChainerRL
Renforcer l'apprentissage 19 Colaboratory + Mountain_car + ChainerRL
Renforcer l'apprentissage 20 Colaboratoire + Pendule + ChainerRL
Renforcer l'apprentissage 21 Colaboratoire + Pendule + ChainerRL + A2C
Renforcer l'apprentissage 22 Colaboratory + CartPole + ChainerRL + A3C
Renforcer l'apprentissage 24 Colaboratory + CartPole + ChainerRL + ACER
Renforcer l'apprentissage 11 Essayez OpenAI acrobot avec ChainerRL.
Apprentissage par renforcement 27 chainerRL (+ chokozainerRL)
Renforcement de l'apprentissage 2 Installation de chainerrl
Apprentissage par renforcement 9 Remodelage magique ChainerRL
Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.
[Introduction] Renforcer l'apprentissage
Apprentissage par renforcement futur_2
Apprentissage par renforcement futur_1
Renforcer l'apprentissage 14 Pendulum a été réalisé à ChainerRL.
Renforcer l'apprentissage 12 Guide de démarrage rapide de ChainerRL Version Windows
[Mac] J'ai essayé de renforcer l'apprentissage avec Open AI Baselines
Renforcer l'apprentissage de la troisième ligne
[Renforcer l'apprentissage] Tâche de bandit
Apprentissage amélioré Python + Unity (apprentissage)
Renforcer l'apprentissage 1 édition introductive
Apprentissage amélioré 7 Sortie du journal des données d'apprentissage
Apprentissage par renforcement dans les plus brefs délais avec Keras avec OpenAI Gym
[Renforcer l'apprentissage] Suivi par multi-agents
Renforcer l'apprentissage 6 First Chainer RL
Apprentissage amélioré à partir de Python
Apprentissage par renforcement 5 Essayez de programmer CartPole?
Renforcer l'apprentissage Apprendre d'aujourd'hui
Renforcer l'apprentissage 4 CartPole première étape
Apprentissage par renforcement profond 1 Introduction au renforcement de l'apprentissage
Apprentissage par renforcement 23 Créez et utilisez votre propre module avec Colaboratory
Apprentissage par renforcement profond 2 Mise en œuvre de l'apprentissage par renforcement
DeepMind Enhanced Learning Framework Acme
Apprentissage par renforcement: accélérer l'itération de la valeur
J'ai essayé l'apprentissage par renforcement profond (Double DQN) avec ChainerRL
[Renforcer l'apprentissage] Comment dessiner OpenAI Gym sur Google Corab (version 2020.6)
TF2RL: bibliothèque d'apprentissage améliorée pour TensorFlow2.x
Apprentissage par renforcement 34 Créez des vidéos d'agent en continu
Construction d'un environnement d'apprentissage amélioré Python + Unity
Explorez le labyrinthe avec l'apprentissage augmenté
Renforcer l'apprentissage 8 Essayez d'utiliser l'interface utilisateur de Chainer
Apprentissage par renforcement 3 Méthode de planification dynamique / méthode TD
Deep Strengthening Learning 3 Édition pratique: Briser des blocs
J'ai essayé l'apprentissage par renforcement avec PyBrain
Apprenez en faisant! Apprentissage par renforcement profond_1