[PYTHON] Versuchen Sie es mit Chainer Deep Q Learning - Launch

Hallo Kerngeschäft sind die Leute, die kein Programmierer sind.

Wenn das Schlüsselwort "Deep Learning" im Fernsehen summt Siehe Robotersteuerung mit verteiltem Tiefenverstärkungslernen | Bevorzugte Forschung Ich wollte es versuchen, also nannte ich es keinen Klon, sondern machte es aus einem einfachen. ⇒ Speicher: DeepQNetworkTest

das Ziel

Python zum ersten Mal! Chainer ist auch das erste Mal! Ich weiß nicht einmal, wie man programmiert, aber es gibt keine Software-Shops! Aber ich möchte die selbstfahrende Maschine das stärkende Lernen machen lassen! ⇒ Wenn Sie es vorerst veröffentlichen, können einige Leute es Ihnen sagen

Es gibt wirklich wenige Fälle, in denen die Maschine mit Trägheit oder Ähnlichem bewegt wird (ich fühle) ⇒ Lass es uns in den nächsten Schritt setzen

Was ich getan habe

Programmübersicht

Umgebung

Rote Äpfel und Giftringe reihen sich in einem Garten aneinander, der von einem äußeren und einem inneren Rahmen umgeben ist. Künstliche Intelligenz will viele rote Äpfel essen und will keine vergifteten Äpfel essen.

Außenrahmen und Innenwand

Ein Hindernis, das die Bewegung und Sicht der künstlichen Intelligenz blockiert. Künstliche Intelligenz mag es, eine offene Sicht zu haben. 001.png

Roter Apfel / Giftapfel

Wenn Sie einen roten Apfel treffen, werden Sie belohnt. Wenn es sich um einen vergifteten Apfel handelt, wird er bestraft. aka.pngdoku.png

Künstliche Intelligenz

Ein blauer Punkt mit einem 300px Sichtfeld von 120 ° nach vorne.

Intensiviertes Lernen

Neuronales Netz

Ich benutze Relu mit 59 Eingängen, 50 versteckten Ebenen x 2 und 5 Ausgängen (wie Original) network.png

Lernen

Mini-Batch-Lernen mit 30.000 Lagererfahrungen auf Lager. Ich sehe oft, wie man lernt. Ich habe nichts Modisches wie Double DQN oder LSTM gemacht.

Was ich konnte / seltsamer Ort Stand 20.04.2016

――Künstliche Intelligenz lernt nach und nach und beginnt rote Äpfel zu essen ――Ich bleibe gerne seltsam an der Wand ――Es scheint, dass vergiftete Äpfel auch aktiv essen werden, aber ist ε-gierig ε out?

Es kann notwendig sein, die Aktion als Belohnung anzupassen. Es muss sein, dass der Lernfortschritt nicht dargestellt wird.

Ich möchte, dass du es mir sagst und mir hilfst! 22.04.2016

Wie benutzt man Numpy?

Chainer Memo 11 Wenn die Geschwindigkeit auf der GPU --studylog / Northern Clouds nicht angezeigt wird

Für diejenigen, die normalerweise Numpy zum Knirschen verwenden, ist dieser Code auf der Ebene des Teeblasens nicht möglich, aber bis vor einiger Zeit wurde ich oft mit einem solchen Code gemischt.

Es gibt eine Sache, aber dieser Artikel selbst handelt von cupy, Selbst wenn ich es auf numpy beschränke, weiß ich nicht, wie ich es machen soll Ist das nicht seltsam, wie man schreibt, dass es schneller sein wird? Ich würde gerne wissen, ob es welche gibt.

DQN001.py


        memsize     = self.eMem.shape[0]
        batch_index = np.random.permutation(memsize)[:self.batch_num]
        batch       = np.array(self.eMem[batch_index], dtype=np.float32).reshape(self.batch_num, -1)

        x = Variable(batch[:,0:STATE_DIM])
        targets = self.model.predict(x).data.copy()

        for i in range(self.batch_num):
            #[ state..., action, reward, seq_new]
            a = int(batch[i,STATE_DIM])
            r = batch[i, STATE_DIM+1]

            new_seq= batch[i,(STATE_DIM+2):(STATE_DIM*2+2)]

            targets[i,a]=( r + self.gamma * np.max(self.get_action_value(new_seq)))

        t = Variable(np.array(targets, dtype=np.float32).reshape((self.batch_num,-1))) 

Sollten wir eine Implementierung in Betracht ziehen, die das Innere der for-Schleife in eine Vektoroperation umwandeln kann?

Verwendung von wxPython

Ich bin mir nicht sicher über die Eltern-Kind-Beziehung zwischen Frame und Panel und wie ich mit dem Gerätekontext (DC) umgehen soll. Ich möchte ein Diagramm am unteren Bildschirmrand hinzufügen (auf den Bau warten) ⇒ wxPython: Gleichzeitiges Zeichnen von Animationen und Grafiken - Qiita

voglio001.png

Danach wurden verteiltes Lernen und Grafiken hinzugefügt

Es sieht so aus, als würde ein Glühwürmchen fliegen. 003.gif

Referenz

Hinweis

Dieser Artikel wird nach und nach hinzugefügt oder neu geschrieben

Recommended Posts

Versuchen Sie es mit Chainer Deep Q Learning - Launch
Versuchen Sie es mit TensorFlow
Versuchen Sie Deep Learning mit FPGA
Probieren Sie Deep Learning mit FPGA-Select-Gurken aus
Versuchen Sie es mit TensorFlow Part 2
Versuchen Sie Common Representation Learning mit Chainer
Klassifizieren Sie Anime-Gesichter mit tiefem Lernen mit Chainer
Probieren Sie die Bitcoin-Preisprognose mit Deep Learning aus
Versuchen Sie mit Kipoi tiefes Erlernen der Genomik
Einführung in Deep Learning (2) - Versuchen Sie Ihre eigene nichtlineare Regression mit Chainer-
Versuchen Sie, RBM mit Chainer zu implementieren.
Deep Kernel Learning mit Pyro
Deep Embedded Clustering mit Chainer 2.0
Versuchen Sie es mit Kaggle leicht maschinell
Generiere Pokemon mit Deep Learning
Versuchen wir nun die Gesichtserkennung mit Chainer (Lernphase)
Versuchen Sie, ein Deep Learning / Neuronales Netzwerk mit Scratch aufzubauen
[Evangelion] Versuchen Sie, mit Deep Learning automatisch Asuka-ähnliche Linien zu erzeugen
Identifikation der Katzenrasse mit Deep Learning
Lernen stärken 13 Probieren Sie Mountain_car mit ChainerRL aus.
Machen Sie ASCII-Kunst mit tiefem Lernen
Versuchen Sie, Pferderennen mit Chainer vorherzusagen
[Chainer] Lernen von XOR mit mehrschichtigem Perzeptron
SVM versucht maschinelles Lernen mit Scikit-Learn
Stärkung des Lernens 8 Versuchen Sie, die Chainer-Benutzeroberfläche zu verwenden
Überprüfen Sie die Kniebeugenform mit tiefem Lernen
Kategorisieren Sie Nachrichtenartikel mit Deep Learning
Snack-Umsatzprognose mit Deep Learning
Bringen Sie Menschen mit Deep Learning zum Lächeln
(Python) Deep Learning Library Chainer-Grundlagen Grundlagen
Tiefes Lernen
DQN mit Chainer. Ich habe verschiedene Verstärkungslernen hintereinander ausprobiert. (Deep Q Network, Q-Lernen, Monte Carlo)
Tiefes Lernen / Tiefes Lernen von Grund auf 2-Versuchen Sie, GRU zu bewegen
Emotionale Analyse von Tweets mit Deep Learning
Stärkung des Lernens 11 Probieren Sie OpenAI Acrobot mit ChainerRL aus.
Die Geschichte des tiefen Lernens mit TPU
Chainer und Deep Learning durch Funktionsnäherung gelernt
Deep Learning Memorandum
Starten Sie Deep Learning
99,78% Genauigkeit bei tiefem Lernen durch Erkennen von handgeschriebenem Hiragana
Python Deep Learning
Deep Learning × Python
Seq2Seq (1) mit Chainer
Ich habe den Deep Learning Framework Chainer installiert
Eine Geschichte über die Vorhersage des Wechselkurses mit Deep Learning
Ich habe den Deep Learning Library Chainer installiert und verwendet
Deep Learning Bildanalyse beginnend mit Kaggle und Keras
Versuchen Sie, den Wechselkurs (FX) mit nicht tiefem maschinellem Lernen vorherzusagen
Versuchen wir nun die Gesichtserkennung mit Chainer (Vorhersagephase).
Verwenden Sie den Scikit-Learn-Trainingsdatensatz mit Chainer (für Training / Vorhersage).
Vorhersagen von Tags durch Extrahieren von Musikfunktionen mit Deep Learning
Klassifizieren Sie Anime-Gesichter durch Fortsetzung / Deep Learning mit Keras
DNN (Deep Learning) Library: Vergleich von Chainer und TensorFlow (1)
Lernen Sie mit einem umgekehrten Pendel DQN (Deep Q Network)
Versuchen Sie es mit Python.
Erstes tiefes Lernen ~ Kampf ~
Python lernen mit ChemTHEATER 03
"Objektorientiert" mit Python gelernt
Python lernen mit ChemTHEATER 05-1
Python: Deep Learning-Praxis