Ich bin ein Student im 4. Jahr, der etwas über das Lernen der Verstärkung lernt. Ich habe bereits meinen Abschluss gemacht. Ich begann meine Forschung nur mit dem Gedanken, dass ich mit der Kraft der KI einen Gewinn erzielen könnte. Selbst wenn ich danach suche, weil es mit Finanzen zu tun hat, kommen keine Informationen heraus ... Die diesjährige Studie "Erwerb der Anlagestrategie durch tiefgreifende Stärkung des Lernens" Ich hoffe, es wird jemandem irgendwo helfen. (Ich habe es nicht in akademischen Gesellschaften veröffentlicht, also keine Angst ... Ich kann es nicht finden, selbst wenn ich nach einer Arbeit suche.) (Ich habe geschrieben, dass es sich um eine Untersuchung zum Geldverdienen handelt, aber es handelt sich nicht um ein Informationsprodukt usw. Bitte seien Sie versichert, dass es keine Anleitung für seltsame URLs gibt.)

Dieses Mal haben wir es als (1) eingeführt. (2) Ich möchte die tatsächliche Theorie und das Programm nach (3) erläutern.

Außerdem ist der diesmal veröffentlichte Inhalt nicht das, was ich im Unterricht gelernt habe, sondern das, was ich selbst gelernt habe. Ich bin sicher, dass Sie überall einige Fehler finden werden, aber ich hoffe, Sie werden einen warmen Blick darauf werfen. Vielen Dank.

Was ist verstärktes Lernen (Policy Gradient Method)?

Zunächst möchte ich kurz vorstellen, was das Lernen stärkt, indem ich "AlphaGo" als Beispiel nehme, das mich daran interessiert hat, das Lernen zu stärken.

AlphaGo

Grob gesagt (es ist wirklich rau. Die Experten tun mir leid)

Holen Sie sich das aktuelle Board aus der Go-Umgebung
Die Tafel wird vom stärkenden Lernagenten gelesen
Ausgabe ** Wahrscheinlichkeitsverteilung ** des Umzugs
Bestimmen Sie probabilistisch den nächsten Zug aus der Wahrscheinlichkeitsverteilung

Dies ist eine Reihe von Schritten, um zu entscheiden, was vom Vorstand aus zu tun ist.

Ausgabe ** Wahrscheinlichkeitsverteilung ** des Umzugs

Das ist das Miso, abhängig von der aktuellen Karte Es ist besser, als nächstes zu treffen, und wenn Sie es treffen, ist es fast zu gewinnen ** Hohe Wahrscheinlichkeit **, Bei Händen, die beim Treffer eingeklemmt werden, ** verringern Sie die Wahrscheinlichkeit ** Ziel ist es, eine "angemessene" Wahrscheinlichkeitsverteilung auszugeben.

Dann ist es möglich, einen solchen erweiterten Lernagenten einzugeben und auszugeben. Es ist ein bekanntes "neuronales Netzwerk" im tiefen Lernen, Die Rolle des Verstärkungslernens besteht darin, die vom neuronalen Netz ausgegebene Wahrscheinlichkeitsverteilung "angemessen" zu lernen.

Deshalb werden beide kombiniert und als tiefgreifendes Lernen bezeichnet.

Das ist erstaunlich in Alpha Go

AlphaGo und tiefes Lernen Man kann sagen, dass es sich um einen Algorithmus handelt, der "eine ** angemessene ** Wahrscheinlichkeitsverteilung gemäß der aktuellen Umgebung lernt". Das Tolle an diesem Algorithmus ist

―― "Ich lerne, ohne das Wissen zu nutzen, das eine Person namens" fester Stein "entdeckt hat."

"Konvergieren in Echtzeit" ―― "Es ist eine Stärke, die den Menschen weit übertrifft."

Korrekt ... Das Wissen, das Menschen im Wettbewerb über Jahrzehnte und Hunderte von Jahren entdeckt haben, ist so leicht zu verlieren. Es ist dieses tiefe Lernen der Verstärkung, das eine starke Kraft in Go ausübt.

Anwendung auf Aktieninvestitionen

Lassen Sie vorerst die detaillierte Theorie des tiefen Verstärkungslernens usw. Ist es nicht möglich, den Algorithmus "Lernen der ** angemessenen ** Wahrscheinlichkeitsverteilung gemäß dem aktuellen Umfeld" für Aktienkurse zu verwenden? Ich dachte.

Menschen kaufen und verkaufen Aktien

Auf diese Weise handeln Sie nach Preisbewegungen von der Vergangenheit bis zur Gegenwart. Natürlich kann es scheitern, weil wir die Zukunft nicht kennen.

Dies stärken Der Lernagent liest den Aktienkurs

Ist es nicht möglich, in Wahrscheinlichkeit und Handel umzuwandeln?

Wenn Sie die Wahrscheinlichkeit des Kaufs und Verkaufs zum nächsten Zeitpunkt finden können, ohne den Aktienkurs genau zu bestimmen Es ist durchaus möglich, Geld zu verdienen.

Deshalb

Das ist das Ziel dieser Zeit und der Inhalt des Programms.

Über das Ergebnis

Wenn das Ergebnis schlecht ist, ist es sinnlos, es zu lesen, also werde ich es zuerst löschen. Mir ist jedoch bewusst, dass es viele Punkte gibt, die nicht erklärt werden können. Ich werde zu einem späteren Zeitpunkt detaillierte Ergebnisse und Methoden veröffentlichen. Selbst mit dieser erweiterten Lernmethode ist die Wahrscheinlichkeit konvergiert, und ich frage mich, ob es möglich sein wird, Gewinne zu erzielen, unabhängig davon, ob sie den Menschen übertreffen. Ich hoffe du kannst darüber nachdenken.

Daten lernen ↓

Lernstand ↓

Die blaue Linie ist der Wert der Fehlerfunktion des neuronalen Netzwerks. Sie können sehen, dass die Wahrscheinlichkeit umso größer ist, je näher 0 liegt. ――Die orange Linie ist der durchschnittliche Gewinn, der während der 50 Tage des Studienzeitraums erzielt wurde.

Der durchschnittliche Gewinn steigt mit zunehmender Anzahl von Schritten.

In Bezug auf Kauf und Verkauf

"Nehmen Sie eine Kaufposition ein"
"Verkaufsposition einnehmen (Leerverkauf)"
"Auflösen oder keine Position haben" Wir haben drei Outputs vorbereitet und kaufen und verkaufen eine Einheit unter der Voraussetzung, dass wir immer eine Einheit des durchschnittlichen Nikkei-Aktienkurses kaufen (verkaufen) können.
Spezifisches Ausgabedesign
Struktur des neuronalen Netzes selbst
Kauf- und Verkaufsregeln
Verbesserter Lernalgorithmus
Aktuelles Programm
Detaillierte Ergebnisse (einschließlich der Ergebnisse des Testzeitraums)

Ich möchte zu einem späteren Zeitpunkt darüber posten.

Es mag ein langer Beitrag sein, aber bitte bleiben Sie in Kontakt. Vielen Dank.

[PYTHON] Aktieninvestitionen durch tiefgreifendes Lernen (Policy Gradient Method) (1)

Was ist verstärktes Lernen (Policy Gradient Method)?

Das ist erstaunlich in Alpha Go

Anwendung auf Aktieninvestitionen

Über das Ergebnis