[PYTHON] Aktieninvestitionen durch tiefgreifendes Lernen (Policy Gradient Method) (1)

Ich bin ein Student im 4. Jahr, der etwas über das Lernen der Verstärkung lernt. Ich habe bereits meinen Abschluss gemacht. Ich begann meine Forschung nur mit dem Gedanken, dass ich mit der Kraft der KI einen Gewinn erzielen könnte. Selbst wenn ich danach suche, weil es mit Finanzen zu tun hat, kommen keine Informationen heraus ... Die diesjährige Studie "Erwerb der Anlagestrategie durch tiefgreifende Stärkung des Lernens" Ich hoffe, es wird jemandem irgendwo helfen. (Ich habe es nicht in akademischen Gesellschaften veröffentlicht, also keine Angst ... Ich kann es nicht finden, selbst wenn ich nach einer Arbeit suche.) (Ich habe geschrieben, dass es sich um eine Untersuchung zum Geldverdienen handelt, aber es handelt sich nicht um ein Informationsprodukt usw. Bitte seien Sie versichert, dass es keine Anleitung für seltsame URLs gibt.)

Dieses Mal haben wir es als (1) eingeführt. (2) Ich möchte die tatsächliche Theorie und das Programm nach (3) erläutern.

Außerdem ist der diesmal veröffentlichte Inhalt nicht das, was ich im Unterricht gelernt habe, sondern das, was ich selbst gelernt habe. Ich bin sicher, dass Sie überall einige Fehler finden werden, aber ich hoffe, Sie werden einen warmen Blick darauf werfen. Vielen Dank.

Was ist verstärktes Lernen (Policy Gradient Method)?

Zunächst möchte ich kurz vorstellen, was das Lernen stärkt, indem ich "AlphaGo" als Beispiel nehme, das mich daran interessiert hat, das Lernen zu stärken.

AlphaGo image.png

Grob gesagt (es ist wirklich rau. Die Experten tun mir leid)

image.png

  1. Holen Sie sich das aktuelle Board aus der Go-Umgebung
  2. Die Tafel wird vom stärkenden Lernagenten gelesen
  3. Ausgabe ** Wahrscheinlichkeitsverteilung ** des Umzugs
  4. Bestimmen Sie probabilistisch den nächsten Zug aus der Wahrscheinlichkeitsverteilung

Dies ist eine Reihe von Schritten, um zu entscheiden, was vom Vorstand aus zu tun ist.

Ausgabe ** Wahrscheinlichkeitsverteilung ** des Umzugs

Das ist das Miso, abhängig von der aktuellen Karte Es ist besser, als nächstes zu treffen, und wenn Sie es treffen, ist es fast zu gewinnen ** Hohe Wahrscheinlichkeit **, Bei Händen, die beim Treffer eingeklemmt werden, ** verringern Sie die Wahrscheinlichkeit ** Ziel ist es, eine "angemessene" Wahrscheinlichkeitsverteilung auszugeben.

Dann ist es möglich, einen solchen erweiterten Lernagenten einzugeben und auszugeben. Es ist ein bekanntes "neuronales Netzwerk" im tiefen Lernen, Die Rolle des Verstärkungslernens besteht darin, die vom neuronalen Netz ausgegebene Wahrscheinlichkeitsverteilung "angemessen" zu lernen.

Deshalb werden beide kombiniert und als tiefgreifendes Lernen bezeichnet.

Das ist erstaunlich in Alpha Go

AlphaGo und tiefes Lernen Man kann sagen, dass es sich um einen Algorithmus handelt, der "eine ** angemessene ** Wahrscheinlichkeitsverteilung gemäß der aktuellen Umgebung lernt". Das Tolle an diesem Algorithmus ist

―― "Ich lerne, ohne das Wissen zu nutzen, das eine Person namens" fester Stein "entdeckt hat."

Korrekt ... Das Wissen, das Menschen im Wettbewerb über Jahrzehnte und Hunderte von Jahren entdeckt haben, ist so leicht zu verlieren. Es ist dieses tiefe Lernen der Verstärkung, das eine starke Kraft in Go ausübt.

Anwendung auf Aktieninvestitionen

Lassen Sie vorerst die detaillierte Theorie des tiefen Verstärkungslernens usw. Ist es nicht möglich, den Algorithmus "Lernen der ** angemessenen ** Wahrscheinlichkeitsverteilung gemäß dem aktuellen Umfeld" für Aktienkurse zu verwenden? Ich dachte.

Menschen kaufen und verkaufen Aktien image.png

Auf diese Weise handeln Sie nach Preisbewegungen von der Vergangenheit bis zur Gegenwart. Natürlich kann es scheitern, weil wir die Zukunft nicht kennen.

Dies stärken Der Lernagent liest den Aktienkurs image.png

Ist es nicht möglich, in Wahrscheinlichkeit und Handel umzuwandeln?

Wenn Sie die Wahrscheinlichkeit des Kaufs und Verkaufs zum nächsten Zeitpunkt finden können, ohne den Aktienkurs genau zu bestimmen Es ist durchaus möglich, Geld zu verdienen.

Deshalb image.png

Das ist das Ziel dieser Zeit und der Inhalt des Programms.

Über das Ergebnis

Wenn das Ergebnis schlecht ist, ist es sinnlos, es zu lesen, also werde ich es zuerst löschen. Mir ist jedoch bewusst, dass es viele Punkte gibt, die nicht erklärt werden können. Ich werde zu einem späteren Zeitpunkt detaillierte Ergebnisse und Methoden veröffentlichen. Selbst mit dieser erweiterten Lernmethode ist die Wahrscheinlichkeit konvergiert, und ich frage mich, ob es möglich sein wird, Gewinne zu erzielen, unabhängig davon, ob sie den Menschen übertreffen. Ich hoffe du kannst darüber nachdenken.

Daten lernen ↓ image.png

Lernstand ↓ image.png

Der durchschnittliche Gewinn steigt mit zunehmender Anzahl von Schritten.

In Bezug auf Kauf und Verkauf

Ich möchte zu einem späteren Zeitpunkt darüber posten.

Es mag ein langer Beitrag sein, aber bitte bleiben Sie in Kontakt. Vielen Dank.

Recommended Posts

Aktieninvestitionen durch tiefgreifendes Lernen (Policy Gradient Method) (1)
Zusammenfassende Anmerkung zu Deep Learning -4.3 Gradientenmethode-
[Lernen stärken] Tracking durch Multi-Agent
Tiefe Stärkung des Lernens 1 Einführung in die Stärkung des Lernens
Tiefes Lernen der Verstärkung 2 Implementierung des Lernens der Verstärkung
Deep Learning durch Implementierung 1 gelernt (Return Edition)
Verstärkungslernen 3 Dynamische Planungsmethode / TD-Methode
Algorithmus für maschinelles Lernen (Gradientenabstiegsmethode)
Deep Strengthing Learning 3 Praktische Ausgabe: Block Breaking
Lerne beim Machen! Tiefes Verstärkungslernen_1
Deep Learning 2 durch Implementierung gelernt (Bildklassifizierung)
Verbessertes Lernen, um von null bis tief zu lernen
<Kurs> Deep Learning Day4 Stärkung des Lernens / Tensorflusses
Aktienkursprognose mit Deep Learning (TensorFlow)
Produzieren Sie wunderschöne Seekühe durch tiefes Lernen
Objekterkennung durch tiefes Lernen, Keras tief zu verstehen
Deep Learning / SGD-Simulation (Probabilistic Gradient Descent)
Tiefes Lernen
Chainer und Deep Learning durch Funktionsnäherung gelernt
Tiefes Lernen durch Implementierung gelernt ~ Erkennung von Abnormalitäten (Lernen ohne Lehrer) ~
99,78% Genauigkeit bei tiefem Lernen durch Erkennen von handgeschriebenem Hiragana
Videorahmeninterpolation durch tiefes Lernen Teil 1 [Python]
Aktienkursprognose mit Deep Learning (TensorFlow) -Teil 2-
Paralleles Lernen von Deep Learning durch Keras und Kubernetes
Aktienkursprognose durch maschinelles Lernen Numerai Signals
Tiefes Lernen durch Implementierung (Segmentierung) ~ Implementierung von SegNet ~
Aktienkursprognose mit Deep Learning [Datenerfassung]