[PYTHON] Aktienkurs Prognose durch maschinelles Lernen ist so wahr, Numerai Signale

Einführung

Der vorherige Artikel war hier. Die Spezifikationen von Numerai Signals, die sich bisher in der Beta befanden, sind fast fertiggestellt. Gegenüber der Beta-Version, die die Rückkehr der Aktienkurse vorhersagt und um Schärfe konkurriert, wurde eine wesentliche Änderung vorgenommen. Es ist eine sehr schwierige Spezifikation, nach dem ursprünglichen Signal zu suchen, das niemand gesehen hat. Der Autor betrachtet dieses Turnier als das fortschrittlichste Finanzdatenturnier der Welt, und ich möchte den Grund für diese Annahme erläutern, während ich jede Spezifikation überprüfe. Ich werde hier einen neuen Artikel mit dem Titel "True Numerai Signals" veröffentlichen.

Dieser Artikel richtet sich an Personen, die am Numerai-Turnier teilgenommen haben, und wird unter der Voraussetzung erläutert, dass sie über Vorkenntnisse verfügen.

Spezifikationen der Numerai-Signale

Signalübersicht

Die Dokumentation zu Signalen finden Sie hier [https://docs.numer.ai/numerai-signals/signals-overview]. Signals zielt darauf ab, den ursprünglichen Investmentindex zu finden = Signal, das noch niemand gesehen hat, anstatt den Anstieg und Fall der Aktienkurse auf Märkten auf der ganzen Welt wie bei Turnieren vorherzusagen. Das ultimative Ziel der Teilnehmer ist es, dass ein datengesteuerter Hedgefonds wie Numerai das eingereichte Signal "kauft". Es greift auf verschiedene Datenquellen auf der ganzen Welt zu, findet Funktionen mit viel Alpha und extrahiert daraus Signale mit hoher Vorhersageleistung und Originalität. Und es ersetzt sich als Teil des Hedge-Fonds-Gehirns. Was für ein aufregender Versuch.

Aber das ist in einem halbgebackenen Signal nicht akzeptabel. Natürlich wollen Hedgefonds keine Signale, die aus bekannten Informationen generiert werden. Die Signalspezifikation dient zum Erkunden Ihres eigenen Signals. Beginnen wir mit der Erklärung.

Zielobjekt

Numerai Signals zielt auf Aktien in Märkten auf der ganzen Welt ab, mit insgesamt rund 5.200 zu diesem Zeitpunkt. Die Liste ändert sich täglich, aber die meisten Bestände werden zurückgestellt, wobei nur mangelhafte Bestände ersetzt werden. Die neueste Liste finden Sie hier [https://numerai-quant-public-data.s3-us-west-2.amazonaws.com/example_predictions/latest.csv].

Als Referenz haben wir tabellarisch aufgeführt, wie viele Aktien sich auf welchem Markt befinden. Der größte ist der US-Markt mit mehr als 2000 Aktien. Es folgen der japanische Markt, der koreanische Markt und der Londoner Markt.

Die Teilnehmer müssen nicht für alle diese Bestände Prognosen einreichen. Wenn Sie eine Prognose von mindestens 100 Aktien einreichen, können Sie die Stufe als Bewertungsziel erklimmen. Für Aktien, die keine Prognose eingereicht haben, wird die Prognose jedoch einheitlich als Medianwert zugewiesen, wodurch die Prognoseleistung aus Sicht des gesamten Universums verringert wird. Wenn Sie eine hohe Leistung wünschen, sollten Sie Prognosen für so viele Aktien wie möglich einreichen (die Auswirkungen von Prognosemängeln werden später erörtert).

02.png

Über die Datenerfassung

Für diese Bestände müssen die Teilnehmer selbst die für die Prognose erforderlichen Daten sammeln. Numerai Signals ist eine Plattform für Benutzer, die bereits ein eigenes Prognosesystem erstellt haben und Zugriff auf Marktdaten haben. Die Datenquelle, die von der Operation offiziell zur Bewertung der Vorhersageleistung der Teilnehmer verwendet wird, ist Quandl. Andere Datenquellen sind Quantopian und Alpaka. Das Numerai-Forum teilt eine Liste billiger Datenquellen, also dort ) Sollte erwähnt werden. Ich verwende derzeit Yahoo Finance.

Außerdem wird im Beispielmodell "Signale" eine Pipeline zum Herunterladen von Aktienkursen von Yahoo Finance erstellt. Auf dort sollte ebenfalls verwiesen werden.

Einreichungszeitplan

Signals hat ein wöchentliches ROUND-System. Die RUNDE beginnt am Samstag um 18:00 Uhr UTC (Sonntag 3:00 Uhr in Japan), und die Frist für die Einreichung von Prognosen endet am folgenden Montag um 14:30 Uhr (Montag 23:30 Uhr in Japan, dieselbe Zeit wie die Frist für die Einreichung des Numerai-Turniers). Der vorherzusagende Zeitrahmen reicht vom Schlusskurs am Dienstag bis zum Schlusskurs am folgenden Montag auf dem Markt jedes Landes. Mit anderen Worten, ab dem Wochenende, an dem ROUND begann, die Rückkehr der nächsten 6 Werktage abzüglich der ersten 2 Tage. Diese Verzögerung berücksichtigt die Zeit, die für den Aufbau des Portfolios erforderlich ist. Kurz gesagt, Numerai möchte ein kleines Alpha für Time Decay. Die prädiktive Leistung in sehr kurzer Zeit hat keine Bedeutung. Dieser Punkt allein ist eine ausreichend schwierige Spezifikation.

01.png

Orthogonalisierung der Vorhersageergebnisse

Signals sucht nach einem völlig neuen Signal, das nicht mit vorhandenen Faktoren oder Signalen korreliert. Das Mittel, um dies zu erreichen, besteht darin, die eingereichten Vorhersagen gegenüber bekannten Faktoren und Signalen zu neutralisieren.

Stellen Sie sich das übermittelte Signal als einen N-dimensionalen Vektor vor. Zu diesem Zeitpunkt kann durch Orthogonalisierung zu dem bekannten Faktor die Korrelation mit dem bekannten Faktor in 0 umgewandelt werden, während die Information (lineare Beziehung) des ursprünglichen Signals so weit wie möglich beibehalten wird (dh das Original für den bekannten Faktor). Zutaten können extrahiert werden). Ein Beispiel für zwei Dimensionen (N = 2) ist nachstehend zum leichteren Verständnis dargestellt. Der Korrelationskoeffizient zwischen dem gesendeten Signal und dem bekannten Faktor gibt den Winkel (genauer gesagt cosθ) an, der von jedem Vektor gebildet wird. Indem der Signalvektor wie unten gezeigt orthogonal (vertikal) zum Vektor des bekannten Faktors gemacht wird, kann die Korrelation auf 0 gesetzt werden (dh cosθ '= 0).

04.png

Wichtig ist, dass diese Orthogonalisierung an mehreren Vektoren durchgeführt werden kann. Stellen Sie sich einen dreidimensionalen Raum vor. Der Signalvektor kann Komponenten senkrecht zu der Ebene extrahieren, die durch die bekannten Faktorvektoren 1 und 2 erzeugt werden. Im Allgemeinen sollten N-dimensionale Vektoren orthogonal zu N-1-Vektoren sein können. Mit anderen Worten, da die Abmessungen von Signalen ungefähr 5000 betragen, ist es möglich, eine Orthogonalisierung für mindestens mehrere tausend Faktoren gleichzeitig durchzuführen.

Die Signalspezifikation besagt, dass die eingereichten Prognosen orthogonal zum Barra-Faktor, Land, Industrie und allen anderen einzigartigen Faktoren von Numerai sind. Diese Orthogonalisierung wird wahrscheinlich nicht nur lineare Informationen von einem einzelnen Faktor ableiten, sondern auch Vorhersageergebnisse, die gleichzeitig bekannten Faktoren nachempfunden sind. Numerai kann alle Komponenten abziehen, die durch die Modellierung einfacher Informationen generiert werden, indem einige nichtlineare Modelle wie Baummodelle und neuronale Netze für die von ihm vorhandenen Funktionen erstellt werden.

Wiederum werden in Signalen übermittelte Vorhersagen vor der Auswertung unter Verwendung aller Numerai-Informationen orthogonalisiert.

Vorausschauendes Ziel

Das Prognoseziel ist auch für alle Informationen, die Numerai in Bezug auf die Marktrenditen hat, vororthogonalisiert. Dies wird natürlich niemals mit Benutzern geteilt. Das Ziel von Signalen ist die Black Box.

Da es kein Vorhersageziel gibt, können Benutzer normalerweise nicht beurteilen, ob das von ihnen erzielte Vorhersageergebnis gut ist oder nicht. Wenn Sie diesbezüglich gleichzeitig die neueste Vorhersage (live) und das vergangene Vorhersageergebnis (Validierung) einreichen, können Sie das Bewertungsergebnis mit historischen Daten erhalten. Der auf diesen historischen Daten basierende Bewertungszeitraum dauert vom 4. Januar 2013 bis zum 28. Februar 2020. Selbstverständlich dient die Auswertung dieser historischen Daten jedoch nur als Referenz, und es ist besser, keine Anstrengungen zu unternehmen, um sie zu verbessern. Es gibt Bedenken hinsichtlich einer Überanpassung, und vor allem wird erwähnt, dass sich die in der Vergangenheit erzielten guten Ergebnisse wahrscheinlich verschlechtern werden, wenn sie sich in der Zukunft widerspiegeln. 07.png

Prognosebewertung und Rangliste

Die Vorhersage wird durch das folgende Verfahren bewertet. Zunächst werden die von den Teilnehmern eingereichten Vorhersageergebnisse zu allen Informationen von Numerai orthogonalisiert. Berechnen Sie den Korrelationskoeffizienten COR zwischen dem Ergebnis und dem benutzerdefinierten Ziel von Numerai (das ebenfalls orthogonalisiert ist). Dieser Korrelationskoeffizient COR wird in der aktiven Portfoliotheorie als Informationskoeffizient (IC) bezeichnet und als Vorhersagekraft des Signals beurteilt.

Der COR-Durchschnitt der letzten 20 RUNDEN (dh 20 Wochen) wird für die Rangliste verwendet. 08.png

Belohnungssystem

Obwohl es sich um ein Belohnungssystem handelt, wird der Einsatzbetrag der Teilnehmer multipliziert mit 2 * COR als Belohnung angegeben (oder gesammelt). Im Turnier lag der COR-Durchschnitt der Hauptpreisträger bei etwa 0,03 (dh etwa 3%). Es wird erwartet, dass die Signale niedriger sind, daher werden sie mit dem Faktor zwei multipliziert. Wenn der COR in Signals beispielsweise durchschnittlich 0,015 pro Woche beträgt, wird ein durchschnittlicher wöchentlicher Gewinn von 3% für die Höhe des Anteils erwartet. Wenn eine solche Leistung erzielt werden kann, beträgt der jährliche Zins eine hohe Rendite von 156% für die einfache Zinsberechnung und 365% für die Zinseszinsberechnung.

Wie bei Turnieren hat auch Signals MMC-Belohnungen. MMC ist ein Metamodellbeitrag, der lediglich Teil des Wettbewerbs um die Originalität der Vorhersagen anderer Teilnehmer ist. Bei der COR-Berechnung im vorherigen Abschnitt wurden die von Numerai gespeicherten Informationen im Voraus abgezogen, während bei MMC die von anderen Teilnehmern eingereichten Vorhersagen abgezogen werden. Für diesen Abzug wird ein Metamodell aller Teilnehmer verwendet (hier der gewichtete gewichtete Durchschnitt von Signal nach Neutralisieren).

Belohnungen von MMC sind optional. MMC ist eine sehr strenge Spezifikation, in der diejenigen, die nach dem Original gesucht haben, um mehr Originalität konkurrieren. 09.png

Punkte, die bei Signalen zu beachten sind

Fehlende Vorhersage

Da Signals auf mehr als 5.000 Aktien abzielt, können einige von ihnen natürlich keine Daten abrufen, und viele Teilnehmer möchten ihre Prognosen einschränken. Wenn Sie in erster Linie nach alternativen Daten suchen, ist es unmöglich, diese für alle Bestände zu erfassen. Die Teilnehmer sollten mindestens 100 Aktien vorhersagen. In diesem Fall wird der fehlende Wert einheitlich durch den Medianwert ersetzt und der COR-Wert verschlechtert sich. Dieses Mal habe ich den Effekt geschätzt. 10.png

Die Abbildung rechts zeigt das Ergebnis einer zufälligen Simulation, wie sich der COR ändert, wenn die übermittelte Vorhersage einen Fehler von 50% aufweist. Der Koeffizient der Regressionsgeraden beträgt 0,715, und wenn ein 50% iger Mangel vorliegt, beträgt der COR etwa das 0,7-fache des Wertes, wenn alle Vorhersagen übermittelt werden. In der Abbildung links wird die horizontale Achse durch die Fehlerrate geteilt. Beispielsweise kann bestätigt werden, dass sich der COR mit zunehmender Anzahl von Fehlern allmählich verschlechtert.

Abschließend,

Das Urteil der Teilnehmer ist wichtig, wie die erwartete Anzahl von Aktien ausgewählt werden soll.

So platzieren Sie das Ziel

Das Ziel von Signalen ist die Black Box. Worauf sollten die Teilnehmer abzielen? Zumindest einfache Aktienkursbewegungen sollten nicht gezielt werden. Der vorhersehbare Teil der Aktienkursbewegungen besteht größtenteils aus bekannten Faktoren (insbesondere dem Einfluss von Markt und Industrie). Mit anderen Worten, das Targeting einer einfachen Rendite führt zu einem Modell, das gut mit bekannten Faktoren korreliert, was zu einer niedrigen Bewertung der Signale führt. Dies wird auch in der Dokumentation erwähnt, dass "Signale, die eine starke Korrelation mit normalen Renditen aufweisen, wahrscheinlich schlecht bewertet werden".

Dies bedeutet, dass die Teilnehmer zum Erstellen eines Vorhersagemodells zunächst ihre eigenen benutzerdefinierten Ziele erstellen müssen. In Wirklichkeit ist dies jedoch eine entmutigende Aufgabe. Faktoren, die beim Erstellen eines benutzerdefinierten Ziels nicht abgezogen werden, werden nach dem Absenden der Prognose auf der Numerai-Seite abgezogen. Unabhängig davon, wie viel Vorhersageleistung Sie in Ihrem eigenen Modell haben, besteht eine hohe Wahrscheinlichkeit, dass diese vor dem Scoring zurückbleibt.

Dann wie man erfasst

Die Schlussfolgerung, die ich bisher gezogen habe, ist, dass ich kein Vorhersagemodell erstellen werde. Denken Sie auf jeden Fall an alternative Daten, die Numerai anscheinend nicht hat, und strukturieren Sie sie. Und reichen Sie es vorerst ein. Wenn Sie überhaupt kein Ziel erstellen können, können Sie nicht richtig modellieren, geschweige denn mit dem Ergebnis zufrieden sein. Ich werde die Daten vorerst zur Validierung einreichen, aber das zurückgegebene Bewertungsergebnis ist nur ein Referenzwert, und selbst wenn es schlecht ist, werde ich die Übermittlung fortsetzen, ohne mir darüber Sorgen zu machen.

Lassen Sie uns unten ein Beispiel geben. Alternative Daten, die leicht zu erfassen sind, sind die Kartenbilderkennung und die Merkmalsextraktion. Bereiten Sie Zehntausende von Diagrammen vor und extrahieren Sie Funktionen durch unbeaufsichtigtes Lernen. Anschließend werden die Merkmale des Diagramms jeder Marke auf eine Dimension komprimiert, und dieser Wert wird als Vorhersage übermittelt. Es spielt keine Rolle, ob es Vorhersagekraft für die Kursbewegung des Aktienkurses selbst hat, es ist nur notwendig, dass etwas mit den Informationen (benutzerdefiniertes Ziel) des von Numerai vorhergesagten Restteils zusammenhängt.

Ich werde weiterhin alternative Daten einreichen, die mir einfallen. Es sollte für Numerai am meisten geschätzt werden, der verschiedene Daten sammeln möchte, und wenn eine davon für Numerai geeignet ist, wird er sie sicherlich kaufen wollen.

Anreiz zur Teilnahme an Signalen

Um ehrlich zu sein, ist bei Signals der Anreiz für Einsatzbelohnungen gering. Ich habe keine Ahnung, wie meine Wette überhaupt bewertet wird, und es ist sinnvoller, mit bekannten Faktoren direkt vom Markt bezahlt zu werden, als nach esoterischen Signalen zu suchen.

Ich denke, der Anreiz, an Signals teilzunehmen, ist die "Ehre", Teil eines Hedgefonds zu sein, sobald Sie ein gutes Signal eingereicht haben.

abschließend

In diesem Artikel habe ich erklärt, wie streng die Spezifikationen von Numerai Signals sind, und das Konzept der Strategie beschrieben. Auch hier geht es bei Signals nicht darum, Aktienkurse vorherzusagen, sondern unbekannte Daten von irgendwo auf der Welt zu entdecken.

Die Suche nach alternativen Daten wird von Hedgefonds auf der ganzen Welt durchgeführt. Signals ist mehr als nur ein Finanzdatenturnier. Es bedeutet, sich der Suche nach alternativen Daten neben Hedge-Fonds auf der ganzen Welt anzuschließen. Signals ist eine Plattform für Datenwissenschaftler auf der ganzen Welt, um alternative Daten zu untersuchen und automatisch auszuwerten.

Aus diesem Grund denke ich, dass Signals das fortschrittlichste Finanzdatenturnier ist. Natürlich ist die Schwelle überraschend hoch, aber wenn Sie eine Goldader finden könnten, würde die höchste Ehre auf Sie warten.

Begeben wir uns auf eine Reise, um Signale zu finden, die auf der ganzen Welt vergraben sind.

Recommended Posts

Aktienkurs Prognose durch maschinelles Lernen ist so wahr, Numerai Signale
Aktienkursprognose durch maschinelles Lernen Numerai Signals
Aktienkursprognose durch maschinelles Lernen Beginnen wir mit Numerai
Aktienkursprognose mit maschinellem Lernen (Scikit-Learn)
Aktienkursprognose mit maschinellem Lernen (Return Edition)
Python & Machine Learning Study Memo ⑦: Aktienkursprognose
Ist es möglich, mit Aktienkursprognose durch maschinelles Lernen zu essen [Umsetzungsplan]
Aktienkursprognose mit Deep Learning (TensorFlow)
Ist es möglich, mit Aktienkursvorhersage durch maschinelles Lernen zu essen [Maschinelles Lernen Teil 1]
Versuchen Sie, den Strombedarf durch maschinelles Lernen vorherzusagen
Aktienkursprognose mit Deep Learning (TensorFlow) -Teil 2-
Angemessene Preisschätzung von Mercari durch maschinelles Lernen
Aktienkursprognose mit Deep Learning [Datenerfassung]
Aktienkursprognose 2 Kapitel 2
Aktienkursprognose 1 Kapitel 1
Was ist maschinelles Lernen?
[Einführung in Systre] Aktienkursprognose; schwach am Montag m (__) m
Aktienkursprognose mit Tensorflow
Python: Aktienkursprognose Teil 2
4 [/] Vier Arithmetik durch maschinelles Lernen
Python: Aktienkursprognose Teil 1
Zusammenfassung des maschinellen Lernens von Python-Anfängern