Aidemy 2020/11/22
Hallo, es ist ja! Ich bin eine knusprige Literaturschule, aber ich war an den Möglichkeiten der KI interessiert, also ging ich zur KI-Fachschule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der zweite Beitrag von Deep Strengthing Learning. Freut mich, dich kennenzulernen.
Was diesmal zu lernen ・ Implementierung von verbessertem Lernen
-In dem Kapitel "Stärkung des Lernens" wurde die Umgebung usw. von mir selbst definiert, aber dieses Mal werden wir die Umgebung usw. mithilfe der Bibliothek erstellen, die verschiedene Umgebungen zur Stärkung des Lernens vorbereitet. -Die zu verwendende Bibliothek ist __ "keras-rl" __, die aus Keras und __OpenAIGym (Gym) __ besteht. Dieses Mal werden wir dies verwenden, um __Cartpole Demo __ mit DQN zu lernen.
・ Erstellen Sie zunächst environment. Die Methode ist nur __ "env = gym.make ()" __. Geben Sie den Umgebungstyp im Argument an. Die Umgebung der Wagenstange wird als __ "" CartPole-v0 "" __ angegeben. Danach kann es durch Zugriff auf die env-Instanz betrieben werden. -In dieser Wagenstange gibt es zwei Aktionen: __ "Wagen nach rechts bewegen" und "Wagen nach links bewegen" __ und um diese __ "env.action_space.n" zu erhalten Sie können __ verwenden.
・ Code![Screenshot 2020-11-19 10.31.55.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/d10ad3fb-5063-56c5- aaf1-453352008e27.png)
・ Code![Screenshot 2020-11-19 10.32.22.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/a8af8cb2-4c1f-3956- 62f8-26e9086e06ff.png)
-Hier wird die __agent-Einstellung __ ausgeführt, die den Hauptteil des erweiterten Lernens darstellt. Stellen Sie zunächst die für diese Einstellung erforderliche __history __ und policy __ ein. (Geschichte ist "Geschichte dessen, was Sie in der Vergangenheit getan haben") - Verlauf __ kann mit __ "Sequentieller Speicher (Limit, Fensterlänge)" __ eingestellt werden. limit ist die Anzahl der zu speichernden Speicher. -Für policy verwenden Sie __ "BoltzmannQPolicy ()" __, wenn Sie die Boltzmann-Richtlinie verwenden, und __ "EpsGreedyQPolicy ()" __, wenn Sie die ε-gierige Methode anwenden.
・ Code![Screenshot 2020-11-19 10.41.15.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/b834e4f7-d691-531d- e28c-98eda7808306.png)
・ Code (verwenden Sie den im vorherigen Abschnitt für Modell usw.)![Screenshot 2020-11-19 11.12.57.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/ 0/698700 / ff94997e-3e16-3d04-961d-1f9fd389a025.png)
-Verwenden Sie keras-rl, wenn Sie mithilfe der Bibliothek erweitertes Lernen durchführen.
Diese Zeit ist vorbei. Vielen Dank, dass Sie so weit gelesen haben.
Recommended Posts