Es wird davon ausgegangen, dass bis zur Stärkung des Lernens 4 abgeschlossen wurde.
Lassen Sie uns eine einfache Programmierung durchführen.
CartPole2.py
import gym
env = gym.make('CartPole-v0')
for i in range(20):
observation = env.reset()
for t in range(100):
env.render()
action = 0
if observation[2]>0:
action = 1
observation, reward, done, info = env.step(action)
if done:
print("Episode{} finished after {} timesteps".format(i, t+1))
break
env.close()
CartPole.py bewegte sich zufällig. Der Unterschied zu CartPole.py besteht darin, dass Sie die Aktion aufgrund des Unterschieds in der Beobachtung ändern möchten. Es wird zur Rückkopplungskontrolle.
Recommended Posts