[PYTHON] [Mac] J'ai essayé de renforcer l'apprentissage avec Open AI Baselines

J'ai essayé d'utiliser l'open source d'apprentissage amélioré annoncé par OpenAI le 24 mai 2017 car il semble facile à utiliser: smiley: "DQN" et ses trois variantes d'algorithmes d'apprentissage améliorés publiés par le groupe de recherche sur l'intelligence artificielle "OpenAI" Baselines github

Les deux suivants sont présentés sous forme de tutoriels à exécuter baselines.deepq.experiments.train_cartpole baselines.deepq.experiments.train_pong

environnement

Mac OS Sierra 10.12.4 python 3.6.1 En passant, notez que cela ne peut pas être fait avec la série python2.7.

cartpole Ce tutoriel semble être un jeu pour empêcher le bâton du chariot de tomber Pour le moment, exécutez sans réfléchir

On dit qu'il n'y a pas assez de modules, donc installez-le dur

#Commandes d'apprentissage
python -m baselines.deepq.experiments.train_cartpole

#Commande pour jouer avec le modèle de résultat d'apprentissage
python -m baselines.deepq.experiments.enjoy_cartpole

Renforçons l'apprentissage ... À propos, les épisodes se sont arrêtés à 690. image.png

J'ai essayé de jouer

Comment jouez-vous ceci ...: penser: S'il est jugé que l'objet noir est tombé, il semble être rechargé, mais cela n'a aucun sens image.png

pong Cela semble être un jeu compétitif comme le hockey sur glace

Ici aussi, les modules manquants sont installés Au fait, si on vous dit qu'il n'y a pas de cv2, cela signifie OpenCV, vous devriez donc vous référer à ce qui suit. Rendre OpenCV3 disponible à partir de python3 installé avec pyenv

Comme vous pouvez le voir dans l'article ci-dessous, l'ouverture des paramètres de CV est assez gênante sous Linux. La façon la plus simple d'utiliser OpenCV avec python Alors je suis passé à anaconda et l'ai couru. (Recommandé car cela peut être fait bientôt)

#Commandes d'apprentissage
python -m baselines.deepq.experiments.train_pong

#Commandes pour jouer avec le modèle de résultat d'entraînement
python -m baselines.deepq.experiments.enjoy_pong

J'apprends ... image.png

Si 1 épisode dure 90 secondes et se répète 690 fois, environ 62100 secondes, 17 heures 15 minutes ...

~~ Je me suis arrêté à mi-chemin ~~

J'ai essayé: innocent:

Il y a eu environ 1160 épisodes, donc cela a pris beaucoup de temps ... Je ne peux rien dire car il s'est arrêté en mode veille en chemin, mais je pense que cela a pris environ 8 heures. Screenshot from 2017-05-28 21-43-00.png

Veuillez consulter la vidéo ci-dessous pour les résultats de la lecture. [Essayez OpenAI Baselines sur Windows (winpython). ] (http://qiita.com/tmizu23/items/ff1d5c89bc99292410c0)

(Au fait, je me demandais si cela pouvait être une bataille avec les humains contre l'apprentissage automatique, mais ce n'est pas le cas ... je voulais lutter contre l'apprentissage par renforcement ...)

Recommended Posts

[Mac] J'ai essayé de renforcer l'apprentissage avec Open AI Baselines
J'ai essayé l'apprentissage automatique avec liblinear
J'ai essayé l'apprentissage par renforcement avec PyBrain
Renforcer l'apprentissage 11 Essayez OpenAI acrobot avec ChainerRL.
J'ai essayé l'apprentissage par renforcement profond (Double DQN) avec ChainerRL
Renforcer l'apprentissage 3 Installation d'OpenAI
J'ai essayé le deep learning
J'ai essayé de déplacer l'apprentissage automatique (détection d'objet) avec TouchDesigner
Mayungo's Python Learning Episode 1: J'ai essayé d'imprimer avec impression
J'ai essayé fp-growth avec python
Renforcer l'apprentissage 28 collaboratif + OpenAI + chainerRL
J'ai essayé Learning-to-Rank avec Elasticsearch!
J'ai essayé le clustering avec PyCaret
Apprentissage amélioré à partir de Python
J'ai essayé gRPC avec Python
J'ai essayé de gratter avec du python
J'ai essayé de créer un environnement d'apprentissage amélioré pour Othello avec Open AI gym
J'ai essayé de créer un environnement d'apprentissage automatique avec Python (Mac OS X)
Apprentissage par renforcement dans les plus brefs délais avec Keras avec OpenAI Gym
Mayungo's Python Learning Episode 3: J'ai essayé d'imprimer des nombres
J'ai essayé d'écrire dans un modèle de langage profondément appris
Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.
J'ai essayé de résumer des phrases avec summpy
J'ai essayé webScraping avec python.
J'ai essayé de déplacer de la nourriture avec SinGAN
J'ai essayé la détection de visage avec MTCNN
J'ai essayé l'apprentissage en profondeur avec Theano
J'ai essayé d'exécuter prolog avec python 3.8.2.
J'ai essayé la communication SMTP avec Python
J'ai essayé la génération de phrases avec GPT-2
J'ai essayé la reconnaissance faciale avec OpenCV
J'ai essayé de rendre le deep learning évolutif avec Spark × Keras × Docker
J'ai lu "Renforcer l'apprentissage avec Python de l'introduction à la pratique" Chapitre 1
J'ai lu "Renforcer l'apprentissage avec Python de l'introduction à la pratique" Chapitre 2
Mayungo's Python Learning Episode 7: J'ai essayé d'imprimer avec if, elif, else
DQN avec Chainer. J'ai essayé plusieurs apprentissages par renforcement d'affilée. (Deep Q Network, Q-Learning, Monte Carlo)
J'ai essayé l'analyse de régression multiple avec régression polypoly
J'ai essayé d'envoyer un SMS avec Twilio
J'ai essayé d'utiliser Amazon SQS avec django-celery
[Renforcer l'apprentissage] DQN avec votre propre bibliothèque
J'ai essayé de mettre en œuvre un apprentissage en profondeur qui n'est pas profond avec uniquement NumPy
J'ai essayé d'implémenter Autoencoder avec TensorFlow
J'ai essayé linebot avec flacon (anaconda) + heroku
[Renforcer l'apprentissage] J'ai implémenté / expliqué R2D3 (Keras-RL)
J'ai essayé de visualiser AutoEncoder avec TensorFlow
J'ai essayé de commencer avec Hy
J'ai essayé d'utiliser du sélénium avec du chrome sans tête
[Kaggle] J'ai essayé l'apprentissage d'ensemble avec LightGBM
J'ai essayé le rendu non réaliste avec Python + opencv
Mayungo's Python Learning Episode 2: J'ai essayé de mettre des caractères avec des variables
[Renforcer l'apprentissage] Enfin surpassé les humains! ?? J'ai essayé d'expliquer / d'implémenter Agent57 (Keras-RL)
J'ai essayé un langage fonctionnel avec Python
J'ai essayé la récurrence avec Python ② (séquence de nombres Fibonatch)
J'ai essayé d'implémenter DeepPose avec PyTorch PartⅡ
J'ai essayé d'implémenter CVAE avec PyTorch
J'ai essayé de jouer avec l'image avec Pillow
Mayungo's Python Learning Episode 8: J'ai essayé l'entrée