[PYTHON] Apprentissage par renforcement 27 chainerRL (+ chokozainerRL)

On suppose que jusqu'à Renforcement de l'apprentissage 26 est terminé. Il est destiné aux débutants en IA du collège à l'université.

google colaboratory est gratuit et peut être gpgpu, mais il semble que le temps d'utilisation continue soit limité. Je ne l'ai pas confirmé car je ne l'ai pas trouvé par écrit. En fait, il peut devenir inutilisable pendant l'utilisation, donc l'apprentissage automatique à long terme nécessite une sauvegarde à mi-chemin et un redémarrage à mi-chemin.

Eh bien, chainerRL a ce mécanisme, mais à partir du 3 décembre, il ne peut normalement pas être installé avec pip. Il est sur github, donc je pense qu'il sortira bientôt. Si vous souhaitez utiliser la dernière version

!pip install git+https://github.com/chainer/chainerrl

Vous pouvez l'installer avec. C'est un problème, j'ai donc copié uniquement les parties pertinentes sur chokozainerrl.

chokozainerrl est défini dans args. Définissez le point de sauvegarde avec checkpoint_freq. Par exemple, s'il est de 1000, il sera enregistré par incréments de 1000, 2000, 3000 et 1000. L'agent enregistré sera dans un dossier avec un nom comme 3000_checkpoint. De plus, si vous souhaitez partir du milieu, utilisez step_offset. Si vous voulez commencer à partir de 3000 étapes, définissez step_offset = 3000. Ensuite, spécifiez le dossier d'agent qui a appris 3000 étapes dans load_agent. Si vous utilisez bien ces deux éléments, vous pouvez être interrompu au milieu.

Le hub git de chokozainer est ici. https://github.com/chokozainer/chokozainerrl