[PYTHON] Löse Copy-v0 von OpenAI Gym

Aufgabe

Da die zu kopierende Zeichenfolge auf das Band geschrieben ist, kopieren Sie sie mit move und write.
Jedes Mal, wenn dies erfolgreich ist, wird die zu kopierende Zeichenfolge lang.

https://gym.openai.com/envs/Copy-v0

Clearing-Bedingungen

Erhalte 25 oder mehr Belohnungen in den letzten 100 Versuchen.

Belohnung

--1.0 wenn Sie korrekt kopieren können, -0.5 wenn Sie einen Fehler machen

Datenstruktur

Wenn ich den Code lese,

https://github.com/openai/gym/blob/master/gym/envs/algorithmic/copy_.py

Der Aktionsraum ist

Tuple(Discrete(2), Discrete(2), Discrete(5))

--Tapple 1st: 1, wenn Sie rechts vom Band gehen möchten, 0, wenn Sie links sind

Tupel 2 .: 1 zum Schreiben
Dritter Taple: Der zu schreibende Wert wird in einen numerischen Wert umgewandelt (dargestellt durch eine Zahl von 1 bis 5).

Zustandsraum

Fünf Buchstaben A bis E (dargestellt durch die Zahlen 1 bis 5)

Discrete(6)

Lösung

――Es wäre gut, wenn Sie nur den vorherigen Status in die nächste Aktion verschieben könnten, aber es ist wahrscheinlich anders, weil Sie kein Verstärkungslernen verwenden.

Code

import numpy as np
import gym
from gym import wrappers

def run():
    env = gym.make('Copy-v0')
    env = wrappers.Monitor(env, '/tmp/copy-v0', force=True)
    Gs = []
    for episode in range(1000):
        x = env.reset()
        G = 0
        for t in range(100):
            a = (1,1, x)
            x, r, done, _ = env.step(a)
            G += r
            if done:
                Gs.append(G)
                break
        score = np.mean(Gs[-100:])
        print("Episode: %3d, Score: %.3f" % (episode, score))
        if score > 25:
            break


if __name__ == "__main__":
    run()

References

LEARNING SIMPLE ALGORITHMS FROM EXAMPLES, Zaremba et al., 2016.
OpenAI Gym, Brockman et al., 2016.