[PYTHON] Verstärkungslernen 27 kollaborative 90-Minuten-Regel misst chainerRL (+ chokozainerRL)

Es wird davon ausgegangen, dass bis zur Stärkung des Lernens 26 abgeschlossen wurde. Es ist für KI-Anfänger von der Junior High School bis zur Universität gedacht.

Google Colaboratory ist kostenlos und kann gpgpu sein, aber es scheint, dass die kontinuierliche Nutzungszeit begrenzt ist. Ich habe es nicht bestätigt, weil ich es nicht schriftlich finden konnte. Tatsächlich kann es während des Gebrauchs unbrauchbar werden, so dass langfristiges maschinelles Lernen eine halbe Sicherung und einen halben Neustart erfordert.

Nun, chainerRL hat diesen Mechanismus, aber ab dem 3. Dezember kann er normalerweise nicht mit pip installiert werden. Es ist auf Github, also denke ich, dass es bald veröffentlicht wird. Wenn Sie die neueste Version verwenden möchten

!pip install git+https://github.com/chainer/chainerrl

Sie können es mit installieren. Dies ist ein Ärger, deshalb habe ich nur die relevanten Teile nach Chokozainerrl kopiert.

chokozainerrl ist in args gesetzt. Setzen Sie den Sicherungspunkt mit checkpoint_freq. Wenn es beispielsweise 1000 ist, wird es in Schritten von 1000, 2000, 3000 und 1000 gespeichert. Der gespeicherte Agent befindet sich in einem Ordner mit einem Namen wie 3000_checkpoint. Wenn Sie von der Mitte aus beginnen möchten, verwenden Sie step_offset. Wenn Sie mit 3000 Schritten beginnen möchten, setzen Sie step_offset = 3000. Geben Sie dann den Agentenordner an, der in load_agent 3000 Schritte gelernt hat. Wenn Sie diese beiden gut verwenden, können Sie in der Mitte unterbrochen werden.

Klicken Sie hier für Chokozainers Github. https://github.com/chokozainer/chokozainerrl

Recommended Posts

Verstärkungslernen 27 kollaborative 90-Minuten-Regel misst chainerRL (+ chokozainerRL)
Stärkung des Lernens 28 colaboratory + OpenAI + chainerRL
Stärkung des Lernens 19 Colaboratory + Mountain_car + ChainerRL
Stärkung des Lernens 20 Colaboratory + Pendulum + ChainerRL
Stärkung des Lernens 21 Labor + Pendel + ChainerRL + A2C
Stärkung des Lernens 22 Colaboratory + CartPole + ChainerRL + A3C
Stärkung des Lernens 24 Colaboratory + CartPole + ChainerRL + ACER
Stärkung des Lernens 2 Installation von Chainerrl
Verstärkungslernen 9 ChainerRL Magic Remodeling
Lernen stärken 13 Probieren Sie Mountain_car mit ChainerRL aus.
Stärkung des Lernens 14 Pendel wurde bei ChainerRL durchgeführt.
Stärkung des Lernens 11 Probieren Sie OpenAI Acrobot mit ChainerRL aus.
Zukünftiges Verstärkungslernen_2
Zukünftiges Verstärkungslernen_1