J'ai essayé d'utiliser l'open source d'apprentissage amélioré annoncé par OpenAI le 24 mai 2017 car il semble facile à utiliser: smiley: "DQN" et ses trois variantes d'algorithmes d'apprentissage améliorés publiés par le groupe de recherche sur l'intelligence artificielle "OpenAI" Baselines github
Les deux suivants sont présentés sous forme de tutoriels à exécuter baselines.deepq.experiments.train_cartpole baselines.deepq.experiments.train_pong
Mac OS Sierra 10.12.4 python 3.6.1 En passant, notez que cela ne peut pas être fait avec la série python2.7.
cartpole Ce tutoriel semble être un jeu pour empêcher le bâton du chariot de tomber Pour le moment, exécutez sans réfléchir
On dit qu'il n'y a pas assez de modules, donc installez-le dur
#Commandes d'apprentissage
python -m baselines.deepq.experiments.train_cartpole
#Commande pour jouer avec le modèle de résultat d'apprentissage
python -m baselines.deepq.experiments.enjoy_cartpole
Renforçons l'apprentissage ... À propos, les épisodes se sont arrêtés à 690.
Comment jouez-vous ceci ...: penser: S'il est jugé que l'objet noir est tombé, il semble être rechargé, mais cela n'a aucun sens
pong Cela semble être un jeu compétitif comme le hockey sur glace
Ici aussi, les modules manquants sont installés
Au fait, si on vous dit qu'il n'y a pas de cv2
, cela signifie OpenCV, vous devriez donc vous référer à ce qui suit.
Rendre OpenCV3 disponible à partir de python3 installé avec pyenv
Comme vous pouvez le voir dans l'article ci-dessous, l'ouverture des paramètres de CV est assez gênante sous Linux. La façon la plus simple d'utiliser OpenCV avec python Alors je suis passé à anaconda et l'ai couru. (Recommandé car cela peut être fait bientôt)
#Commandes d'apprentissage
python -m baselines.deepq.experiments.train_pong
#Commandes pour jouer avec le modèle de résultat d'entraînement
python -m baselines.deepq.experiments.enjoy_pong
J'apprends ...
Si 1 épisode dure 90 secondes et se répète 690 fois, environ 62100 secondes, 17 heures 15 minutes ...
~~ Je me suis arrêté à mi-chemin ~~
J'ai essayé: innocent:
Il y a eu environ 1160 épisodes, donc cela a pris beaucoup de temps ... Je ne peux rien dire car il s'est arrêté en mode veille en chemin, mais je pense que cela a pris environ 8 heures.
Veuillez consulter la vidéo ci-dessous pour les résultats de la lecture. [Essayez OpenAI Baselines sur Windows (winpython). ] (http://qiita.com/tmizu23/items/ff1d5c89bc99292410c0)
(Au fait, je me demandais si cela pouvait être une bataille avec les humains contre l'apprentissage automatique, mais ce n'est pas le cas ... je voulais lutter contre l'apprentissage par renforcement ...)
Recommended Posts