Hallo Kerngeschäft sind die Leute, die kein Programmierer sind.
Wenn das Schlüsselwort "Deep Learning" im Fernsehen summt Siehe Robotersteuerung mit verteiltem Tiefenverstärkungslernen | Bevorzugte Forschung Ich wollte es versuchen, also nannte ich es keinen Klon, sondern machte es aus einem einfachen. ⇒ Speicher: DeepQNetworkTest
Python zum ersten Mal! Chainer ist auch das erste Mal! Ich weiß nicht einmal, wie man programmiert, aber es gibt keine Software-Shops! Aber ich möchte die selbstfahrende Maschine das stärkende Lernen machen lassen! ⇒ Wenn Sie es vorerst veröffentlichen, können einige Leute es Ihnen sagen
Es gibt wirklich wenige Fälle, in denen die Maschine mit Trägheit oder Ähnlichem bewegt wird (ich fühle) ⇒ Lass es uns in den nächsten Schritt setzen
Rote Äpfel und Giftringe reihen sich in einem Garten aneinander, der von einem äußeren und einem inneren Rahmen umgeben ist. Künstliche Intelligenz will viele rote Äpfel essen und will keine vergifteten Äpfel essen.
Ein Hindernis, das die Bewegung und Sicht der künstlichen Intelligenz blockiert. Künstliche Intelligenz mag es, eine offene Sicht zu haben.
Wenn Sie einen roten Apfel treffen, werden Sie belohnt. Wenn es sich um einen vergifteten Apfel handelt, wird er bestraft.
Ein blauer Punkt mit einem 300px Sichtfeld von 120 ° nach vorne.
Ich benutze Relu mit 59 Eingängen, 50 versteckten Ebenen x 2 und 5 Ausgängen (wie Original)
Mini-Batch-Lernen mit 30.000 Lagererfahrungen auf Lager. Ich sehe oft, wie man lernt. Ich habe nichts Modisches wie Double DQN oder LSTM gemacht.
――Künstliche Intelligenz lernt nach und nach und beginnt rote Äpfel zu essen ――Ich bleibe gerne seltsam an der Wand ――Es scheint, dass vergiftete Äpfel auch aktiv essen werden, aber ist ε-gierig ε out?
Es kann notwendig sein, die Aktion als Belohnung anzupassen. Es muss sein, dass der Lernfortschritt nicht dargestellt wird.
Für diejenigen, die normalerweise Numpy zum Knirschen verwenden, ist dieser Code auf der Ebene des Teeblasens nicht möglich, aber bis vor einiger Zeit wurde ich oft mit einem solchen Code gemischt.
Es gibt eine Sache, aber dieser Artikel selbst handelt von cupy, Selbst wenn ich es auf numpy beschränke, weiß ich nicht, wie ich es machen soll Ist das nicht seltsam, wie man schreibt, dass es schneller sein wird? Ich würde gerne wissen, ob es welche gibt.
DQN001.py
memsize = self.eMem.shape[0]
batch_index = np.random.permutation(memsize)[:self.batch_num]
batch = np.array(self.eMem[batch_index], dtype=np.float32).reshape(self.batch_num, -1)
x = Variable(batch[:,0:STATE_DIM])
targets = self.model.predict(x).data.copy()
for i in range(self.batch_num):
#[ state..., action, reward, seq_new]
a = int(batch[i,STATE_DIM])
r = batch[i, STATE_DIM+1]
new_seq= batch[i,(STATE_DIM+2):(STATE_DIM*2+2)]
targets[i,a]=( r + self.gamma * np.max(self.get_action_value(new_seq)))
t = Variable(np.array(targets, dtype=np.float32).reshape((self.batch_num,-1)))
Sollten wir eine Implementierung in Betracht ziehen, die das Innere der for-Schleife in eine Vektoroperation umwandeln kann?
Ich bin mir nicht sicher über die Eltern-Kind-Beziehung zwischen Frame und Panel und wie ich mit dem Gerätekontext (DC) umgehen soll. Ich möchte ein Diagramm am unteren Bildschirmrand hinzufügen (auf den Bau warten) ⇒ wxPython: Gleichzeitiges Zeichnen von Animationen und Grafiken - Qiita
Es sieht so aus, als würde ein Glühwürmchen fliegen.
Dieser Artikel wird nach und nach hinzugefügt oder neu geschrieben
Recommended Posts