Ich habe versucht, die von OpenAI am 24. Mai 2017 angekündigte Open Source für erweitertes Lernen zu verwenden, da sie anscheinend einfach zu verwenden ist: smiley: "DQN" und seine drei Varianten verbesserter Lernalgorithmen, die von der Forschungsgruppe für künstliche Intelligenz "OpenAI" veröffentlicht wurden Baselines github

Die folgenden beiden werden als auszuführende Tutorials vorgestellt baselines.deepq.experiments.train_cartpole baselines.deepq.experiments.train_pong

Umgebung

Mac OS Sierra 10.12.4 python 3.6.1 Beachten Sie übrigens, dass dies mit der Python2.7-Serie nicht möglich ist.

cartpole Dieses Tutorial scheint ein Spiel zu sein, um zu verhindern, dass der Stock des Wagens herunterfällt Führen Sie vorerst ohne nachzudenken aus

Es wird gesagt, dass es nicht genügend Module gibt, also installieren Sie es hart

#Befehle zum Lernen
python -m baselines.deepq.experiments.train_cartpole

#Befehl, mit dem Modell des Lernergebnisses zu spielen
python -m baselines.deepq.experiments.enjoy_cartpole

Lassen Sie uns das Lernen stärken ... Die Folgen hörten übrigens bei 690 auf.

Ich habe versucht zu spielen

Wie spielst du das ...: Denken: Wenn festgestellt wird, dass das schwarze Objekt gefallen ist, fühlt es sich an, als wäre es neu geladen worden, aber es macht keinen Sinn.

pong Dies scheint ein Pflichtspiel wie Eishockey zu sein

Auch hier sind die fehlenden Module installiert Übrigens, wenn Ihnen gesagt wird, dass es kein "cv2" gibt, bedeutet dies OpenCV, daher sollten Sie sich auf Folgendes beziehen. OpenCV3 von Python3 verfügbar machen, das mit pyenv installiert wurde

Wie Sie dem folgenden Artikel entnehmen können, sind die Einstellungen für das Öffnen von CVV unter Linux recht problematisch. Der einfachste Weg, OpenCV mit Python zu verwenden Also wechselte ich zu Anaconda und ließ es laufen. (Empfohlen, da dies bald möglich ist)

#Befehle zum Lernen
python -m baselines.deepq.experiments.train_pong

#Befehle zum Spielen mit dem Trainingsergebnismodell
python -m baselines.deepq.experiments.enjoy_pong

Ich lerne ...

Wenn eine Episode 90 Sekunden dauert und 690 Mal wiederholt wird, dauert es ungefähr 62.100 Sekunden, 17 Stunden und 15 Minuten ...

~~ Ich habe auf halbem Weg angehalten ~~

Ich habe versucht: unschuldig:

Es gab ungefähr 1160 Folgen, also hat es lange gedauert ... Ich kann nichts sagen, weil es unterwegs im Schlafmodus angehalten hat, aber ich glaube, es hat ungefähr 8 Stunden gedauert. Screenshot from 2017-05-28 21-43-00.png

Bitte überprüfen Sie das Video unten für die Ergebnisse des Spielens. [Versuchen Sie OpenAI Baselines unter Windows (Winpython). ]] (http://qiita.com/tmizu23/items/ff1d5c89bc99292410c0)

(Übrigens habe ich mich gefragt, ob dies ein Kampf zwischen Menschen und maschinellem Lernen sein könnte, aber das ist nicht der Fall ... Ich wollte das verstärkte Lernen bekämpfen ...)

[PYTHON] [Mac] Ich habe versucht, das Lernen mit Open AI Baselines zu stärken

Umgebung

Ich habe versucht zu spielen