https://gym.openai.com/envs/Copy-v0
--1.0 wenn Sie korrekt kopieren können, -0.5 wenn Sie einen Fehler machen
Wenn ich den Code lese,
https://github.com/openai/gym/blob/master/gym/envs/algorithmic/copy_.py
Der Aktionsraum ist
Tuple(Discrete(2), Discrete(2), Discrete(5))
--Tapple 1st: 1, wenn Sie rechts vom Band gehen möchten, 0, wenn Sie links sind
Discrete(6)
――Es wäre gut, wenn Sie nur den vorherigen Status in die nächste Aktion verschieben könnten, aber es ist wahrscheinlich anders, weil Sie kein Verstärkungslernen verwenden.
import numpy as np
import gym
from gym import wrappers
def run():
env = gym.make('Copy-v0')
env = wrappers.Monitor(env, '/tmp/copy-v0', force=True)
Gs = []
for episode in range(1000):
x = env.reset()
G = 0
for t in range(100):
a = (1,1, x)
x, r, done, _ = env.step(a)
G += r
if done:
Gs.append(G)
break
score = np.mean(Gs[-100:])
print("Episode: %3d, Score: %.3f" % (episode, score))
if score > 25:
break
if __name__ == "__main__":
run()
References