J'ai essayé d'utiliser l'open source d'apprentissage amélioré annoncé par OpenAI le 24 mai 2017 car il semble facile à utiliser: smiley: "DQN" et ses trois variantes d'algorithmes d'apprentissage améliorés publiés par le groupe de recherche sur l'intelligence artificielle "OpenAI" Baselines github

Les deux suivants sont présentés sous forme de tutoriels à exécuter baselines.deepq.experiments.train_cartpole baselines.deepq.experiments.train_pong

environnement

Mac OS Sierra 10.12.4 python 3.6.1 En passant, notez que cela ne peut pas être fait avec la série python2.7.

cartpole Ce tutoriel semble être un jeu pour empêcher le bâton du chariot de tomber Pour le moment, exécutez sans réfléchir

On dit qu'il n'y a pas assez de modules, donc installez-le dur

#Commandes d'apprentissage
python -m baselines.deepq.experiments.train_cartpole

#Commande pour jouer avec le modèle de résultat d'apprentissage
python -m baselines.deepq.experiments.enjoy_cartpole

Renforçons l'apprentissage ... À propos, les épisodes se sont arrêtés à 690.

J'ai essayé de jouer

Comment jouez-vous ceci ...: penser: S'il est jugé que l'objet noir est tombé, il semble être rechargé, mais cela n'a aucun sens

pong Cela semble être un jeu compétitif comme le hockey sur glace

Ici aussi, les modules manquants sont installés Au fait, si on vous dit qu'il n'y a pas de cv2, cela signifie OpenCV, vous devriez donc vous référer à ce qui suit. Rendre OpenCV3 disponible à partir de python3 installé avec pyenv

Comme vous pouvez le voir dans l'article ci-dessous, l'ouverture des paramètres de CV est assez gênante sous Linux. La façon la plus simple d'utiliser OpenCV avec python Alors je suis passé à anaconda et l'ai couru. (Recommandé car cela peut être fait bientôt)

#Commandes d'apprentissage
python -m baselines.deepq.experiments.train_pong

#Commandes pour jouer avec le modèle de résultat d'entraînement
python -m baselines.deepq.experiments.enjoy_pong

J'apprends ...

Si 1 épisode dure 90 secondes et se répète 690 fois, environ 62100 secondes, 17 heures 15 minutes ...

~~ Je me suis arrêté à mi-chemin ~~

J'ai essayé: innocent:

Il y a eu environ 1160 épisodes, donc cela a pris beaucoup de temps ... Je ne peux rien dire car il s'est arrêté en mode veille en chemin, mais je pense que cela a pris environ 8 heures. Screenshot from 2017-05-28 21-43-00.png

Veuillez consulter la vidéo ci-dessous pour les résultats de la lecture. [Essayez OpenAI Baselines sur Windows (winpython). ] (http://qiita.com/tmizu23/items/ff1d5c89bc99292410c0)

(Au fait, je me demandais si cela pouvait être une bataille avec les humains contre l'apprentissage automatique, mais ce n'est pas le cas ... je voulais lutter contre l'apprentissage par renforcement ...)

[PYTHON] [Mac] J'ai essayé de renforcer l'apprentissage avec Open AI Baselines

environnement

J'ai essayé de jouer