[PYTHON] Löse Copy-v0 von OpenAI Gym

Aufgabe

https://gym.openai.com/envs/Copy-v0

image.png

Clearing-Bedingungen

Belohnung

--1.0 wenn Sie korrekt kopieren können, -0.5 wenn Sie einen Fehler machen

Datenstruktur

Wenn ich den Code lese,

https://github.com/openai/gym/blob/master/gym/envs/algorithmic/copy_.py

Der Aktionsraum ist

Tuple(Discrete(2), Discrete(2), Discrete(5))

--Tapple 1st: 1, wenn Sie rechts vom Band gehen möchten, 0, wenn Sie links sind

Zustandsraum

Discrete(6)

Lösung

――Es wäre gut, wenn Sie nur den vorherigen Status in die nächste Aktion verschieben könnten, aber es ist wahrscheinlich anders, weil Sie kein Verstärkungslernen verwenden.

Code

import numpy as np
import gym
from gym import wrappers

def run():
    env = gym.make('Copy-v0')
    env = wrappers.Monitor(env, '/tmp/copy-v0', force=True)
    Gs = []
    for episode in range(1000):
        x = env.reset()
        G = 0
        for t in range(100):
            a = (1,1, x)
            x, r, done, _ = env.step(a)
            G += r
            if done:
                Gs.append(G)
                break
        score = np.mean(Gs[-100:])
        print("Episode: %3d, Score: %.3f" % (episode, score))
        if score > 25:
            break


if __name__ == "__main__":
    run()

References

  1. LEARNING SIMPLE ALGORITHMS FROM EXAMPLES, Zaremba et al., 2016.
  2. OpenAI Gym, Brockman et al., 2016.

Recommended Posts

Löse Copy-v0 von OpenAI Gym
Lösen Sie OpenAI Gym Copy-v0 mit Q-Learning
Löse OpenAI Gym Copy-v0 mit Sarsa
Lösen Sie die Verzögerung der Interferometerbeobachtung