[PYTHON] Verstärkungslernen 27 kollaborative 90-Minuten-Regel misst chainerRL (+ chokozainerRL)

Es wird davon ausgegangen, dass bis zur Stärkung des Lernens 26 abgeschlossen wurde. Es ist für KI-Anfänger von der Junior High School bis zur Universität gedacht.

Google Colaboratory ist kostenlos und kann gpgpu sein, aber es scheint, dass die kontinuierliche Nutzungszeit begrenzt ist. Ich habe es nicht bestätigt, weil ich es nicht schriftlich finden konnte. Tatsächlich kann es während des Gebrauchs unbrauchbar werden, so dass langfristiges maschinelles Lernen eine halbe Sicherung und einen halben Neustart erfordert.

Nun, chainerRL hat diesen Mechanismus, aber ab dem 3. Dezember kann er normalerweise nicht mit pip installiert werden. Es ist auf Github, also denke ich, dass es bald veröffentlicht wird. Wenn Sie die neueste Version verwenden möchten

!pip install git+https://github.com/chainer/chainerrl

Sie können es mit installieren. Dies ist ein Ärger, deshalb habe ich nur die relevanten Teile nach Chokozainerrl kopiert.

chokozainerrl ist in args gesetzt. Setzen Sie den Sicherungspunkt mit checkpoint_freq. Wenn es beispielsweise 1000 ist, wird es in Schritten von 1000, 2000, 3000 und 1000 gespeichert. Der gespeicherte Agent befindet sich in einem Ordner mit einem Namen wie 3000_checkpoint. Wenn Sie von der Mitte aus beginnen möchten, verwenden Sie step_offset. Wenn Sie mit 3000 Schritten beginnen möchten, setzen Sie step_offset = 3000. Geben Sie dann den Agentenordner an, der in load_agent 3000 Schritte gelernt hat. Wenn Sie diese beiden gut verwenden, können Sie in der Mitte unterbrochen werden.

Klicken Sie hier für Chokozainers Github. https://github.com/chokozainer/chokozainerrl