Es wird davon ausgegangen, dass Sie bis zu 10 Bestärkungslernen erreicht haben. Wenn Sie mit openai acrobot googeln, wird Acrobot-v1 veröffentlicht. Ich bin mir bei v1 oder v0 nicht sicher, daher werde ich dies vor dem Umbau untersuchen. userfolder/anaconda3/envs/chainer/lib/python3.7/site-packages/gym Mit VS Code. Eine vollständige Suche auf CartPole ergab CartPole-v0 und CartPole-v1. Hmmm? In Acrobot nur Acrobot-v1. Ich habe versucht, CartPole-v0 anstelle von CartPole-v1 mit dem zuvor erstellten CartPole auszuführen. Es scheint, dass der Schwierigkeitsgrad zunimmt.
Ich habe es so ersetzt, wie es war, aber etwas war anders. .. .. .. Acrobot ist eine Pendelbewegung, und Sie können eine Belohnung für den Erfolg erhalten, indem Sie sie auf eine bestimmte Höhe bringen. Stellen wir es so ein, dass der Wert in der Zukunft nicht sehr stark reduziert wird. Ich habe Gamma auf 0,99 eingestellt und es scheint zu funktionieren.
Ich benutze DQN (Deep Q Network). Es gibt viele Erklärungen, daher ist es eine gute Idee, zu googeln.
Recommended Posts