Bonjour le cœur de métier, ce sont les gens pas un programmeur.
Lorsque le mot clé "apprentissage en profondeur" bourdonne à la télévision Regardez Contrôle de robot avec apprentissage par renforcement profond distribué | Recherche préférée Je voulais l'essayer, donc je ne l'ai pas appelé un clone, mais je l'ai fait à partir d'un simple. ⇒ Stockage: DeepQNetworkTest
Python pour la première fois! Chainer, c'est aussi la première fois! Je ne sais même pas programmer, mais il n'y a pas de boutique de logiciels! Mais je veux laisser la machine automotrice faire l'apprentissage de renforcement! ⇒ Si vous le publiez pour le moment, certaines personnes pourraient vous dire
Il y a vraiment peu de cas de déplacement de la machine qui a de l'inertie ou quelque chose (je sens) ⇒Mettons-le à l'étape suivante
-Créer quelque chose comme un clone de ConvNetJS Deep Q Learning Reinforcement Learning with Neural Network demo
Des pommes rouges et des anneaux de poison sont alignés dans un jardin entouré d'un cadre extérieur et d'un cadre intérieur. L'intelligence artificielle veut manger beaucoup de pommes rouges et ne veut pas manger de pommes empoisonnées.
Un obstacle qui bloque le mouvement et la vision de l'intelligence artificielle. L'intelligence artificielle aime avoir une vision ouverte.
Lorsque vous frappez une pomme rouge, vous serez récompensé. Si c'est une pomme empoisonnée, elle sera punie.
Un point bleu avec un champ de vision de 300 pixels à 120 ° vers l'avant.
J'utilise Relu avec 59 entrées, 50 couches cachées x 2 et 5 sorties (comme original)
Apprentissage par mini-lots avec 30 000 expériences en stock. Je vois souvent comment apprendre. Je n'ai rien fait de mode, comme utiliser Double DQN ou LSTM.
―― L'intelligence artificielle apprend petit à petit et commence à manger des pommes rouges ―― J'aime étrangement coller au mur ――Il semble que les pommes empoisonnées vont également manger activement, mais est-ce que ε-gourmand ε est absent?
Il peut être nécessaire d'ajuster l'action en guise de récompense. Il faut que les progrès de l'apprentissage ne soient pas illustrés.
Chainer Memo 11 Quand la vitesse ne sort pas sur GPU --studylog / Northern clouds
Pour ceux qui utilisent habituellement numpy pour crunching, ce code n'est pas possible au niveau du soufflage du thé, mais jusqu'à il y a quelque temps j'étais souvent mélangé avec un tel code.
Il y a une chose, mais cet article lui-même parle de Cupy, Même si je le limite à numpy, je ne sais pas comment le faire, alors N'est-ce pas étrange comment écrire que ce sera plus rapide? J'aimerais savoir s'il y en a.
DQN001.py
memsize = self.eMem.shape[0]
batch_index = np.random.permutation(memsize)[:self.batch_num]
batch = np.array(self.eMem[batch_index], dtype=np.float32).reshape(self.batch_num, -1)
x = Variable(batch[:,0:STATE_DIM])
targets = self.model.predict(x).data.copy()
for i in range(self.batch_num):
#[ state..., action, reward, seq_new]
a = int(batch[i,STATE_DIM])
r = batch[i, STATE_DIM+1]
new_seq= batch[i,(STATE_DIM+2):(STATE_DIM*2+2)]
targets[i,a]=( r + self.gamma * np.max(self.get_action_value(new_seq)))
t = Variable(np.array(targets, dtype=np.float32).reshape((self.batch_num,-1)))
Devrions-nous envisager une implémentation capable de convertir l'intérieur de la boucle for en une opération vectorielle?
Je ne suis pas sûr de la relation parent-enfant entre Frame et Panel et comment gérer le contexte de périphérique (dc). Je souhaite ajouter un graphique en bas de l'écran (en attente de construction) ⇒ wxPython: Dessin simultané d'animation et de graphisme --Qiita
On dirait qu'une luciole vole.
Cet article sera ajouté ou réécrit petit à petit
Recommended Posts