Es wird davon ausgegangen, dass Sie bis zu 12 Bestärkungslernen erreicht haben. Ich werde es auf Ubuntu 18.04 tun. Ich habe versucht, CartPole-v0 durch MountainCar-v0 durch den zuvor erstellten CartPole zu ersetzen. Es scheint, dass der Schwierigkeitsgrad zunimmt.
Ich habe es so ersetzt, wie es war, aber etwas war anders. .. .. .. Ich habe Gamma auf 0,99 eingestellt.
Wenn man sich auf der Website umschaut, wird viel gelernt. Ist es der Trick, viel zu tun? Ich stelle es wie folgt ein.
chainerrl.experiments.train_agent_with_evaluation(
agent, env,
steps=1000000, # Train the agent for 2000 steps
eval_n_steps=None, # 10 episodes are sampled for each evaluation
eval_n_episodes=1, # 10 episodes are sampled for each evaluation
eval_max_episode_len=200, # Maximum length of each episodes
eval_interval=100, # Evaluate the agent after every 1000 steps
outdir='result') # Save everything to 'result' directory
print('Finished.')
Ich setze epsilon = 0,003.
Es dauerte einige Lernzeit, aber ich konnte es klettern.
Klicken Sie hier für die Lernkurve 2000.
Hier ist die Kurve des 10000-fachen Lernens.
Wenn es 10.000 Mal ist, dauert es 85 Minuten. Ich wünschte, ich hätte einen Computer, den ich nicht benutzte. Was soll ich mit einem mobilen Computer machen, den ich normalerweise benutze?
Ich denke darüber nach, die GPU mit dem Ziel des 30. Males zu starten. Ich untersuche die Vorbereitung, aber Chainer hat eine extrem kleine Anzahl von Programmen. Über 8 MB auf der Festplatte. Der Tensorfluss ist groß und über 300 MB. Ich möchte Radeon als GPU verwenden, aber ich frage mich, ob Chainer funktioniert.
Recommended Posts