Dieser Artikel wurde zu Medium's Towards Data Science "[Numerai-Turnier: Mischung aus traditionellem quantitativem Ansatz und modernem maschinellem Lernen](https://towardsdatascience.com/numerai-tournament] verfasst. -blending-traditioneller-quantitativer-Ansatz-moderner-maschinelles Lernen-67ebbb69e00c) "wird ins Japanische übersetzt.
Numerai ist ein Cloud-Sourcing-Fonds, bei dem es sich um einen Hedgefonds handelt, der auf der Grundlage der prognostizierten Ergebnisse der Aktienkurse einer nicht festgelegten Anzahl von Personen verwaltet wird. Numerai wird ein Turnier veranstalten, um um vorausschauende Leistung zu kämpfen. Die Turnierteilnehmer erstellen und übermitteln ein Vorhersagemodell auf der Grundlage des von Numerai bereitgestellten Datensatzes. Die Teilnehmer werden nach ihrer vorhergesagten Leistung eingestuft und bezahlt (und können gesammelt werden). Zu den Investoren in Numerai zählen Howard Morgan, Mitbegründer von Renaissance Technologies, Paul Tudor Jones, Gründer von Tudor Investments, Union Square Ventures, ein seit langem etablierter US-amerikanischer VC und andere. Beinhaltet erfahrene VCs und Hedgefonds. Der Datensatz wird von einem auf Finanz-M / L spezialisierten Berater überwacht. Das Gesamtpreisgeld, das den Teilnehmern bisher gezahlt wurde, hat 34 Millionen US-Dollar überschritten, und es wird geschätzt, dass der Fortschritt des Projekts gut ist. (Bild: Zur Verfügung gestellt von Numerai)
Der Autor verwaltet Vermögenswerte in japanischen Aktien nach einer als marktneutral bezeichneten Methode. Marktneutral besteht darin, den relativen Anstieg und Abfall der Aktienkurse innerhalb des Universums (zu investierende Aktien) vorherzusagen und durch die Kombination von Kauf und Verkauf absolute Renditen anzustreben, die nicht von Marktpreisbewegungen abhängen. Der Autor erstellt dieses Aktienkurs-Prognosemodell mithilfe von maschinellem Lernen, das auf traditionellen Quants-Methoden und -Statistiken basiert. Die Betriebsergebnisse sind gut und die Ausbeute beträgt ca. 40%.
In diesem Artikel werde ich die Erkenntnisse teilen, die ich beim Aufbau eines Betriebsmodells gewonnen habe. Zunächst werde ich das Konzept der traditionellen Quants-Operation erläutern und diskutieren, wie es mit maschinellem Lernen kombiniert werden kann, um das neueste Vorhersagemodell zu erstellen.
Der Datensatz von Numerai ist verschleiert und ich habe keine Insiderinformationen darüber. Der Inhalt dieses Artikels basiert auf einer einzigartigen Perspektive, die auf meiner Erfahrung mit Investitionen und Modellierung basiert.
Studien zur Vorhersage von Aktienrenditen werden seit langem durchgeführt. Lassen Sie uns zunächst erklären, was die traditionelle Quants-Methode vor ihrem Hintergrund ist.
Der Prototyp der aktuellen Quants wäre das von Bar Rosenberg befürwortete Risikomodell. [1] Es gibt verschiedene Theorien dazu, aber um die Geschichte der Wall Street hier zu kennen, sollten Sie unbedingt Peter Bernsteins Buch Capital Ideas (japanischer Übersetzungstitel "Thought Revolution of Securities Investment") [2] lesen.
In den 1960er Jahren entwickelte Rosenberg eine Methode, um die Risiken einzelner Unternehmen anhand verschiedener Faktoren zu erklären, basierend auf Markovitz 'gemeinsam verteiltem Modell. Er stellte fest, dass diese Risikofaktoren mit Überschussrenditen auf Aktienkurse (Risikoprämie) verbunden waren. 1975 gründete Rosenberg das Beratungsunternehmen Bar Rosenberg Associates. Das Unternehmen wurde Managern auf der ganzen Welt als BARRA bekannt.
Heute ist das BARRA-Modell das bekannteste Risikomodell, das von MSCI als Anbieter bereitgestellt wird. Andere Risikomodelle umfassen Axioma. Es gibt verschiedene Arten von BARRA-Modellen, aber das BARRA Global Equity Model (GEM) ist ein Risikomodell für Aktien an wichtigen Aktienmärkten auf der ganzen Welt [3]. In diesem Modell werden die Aktienrenditen wie folgt in Länderfaktoren, Industriefaktoren, Risikofaktoren und einzelne Faktoren unterteilt.
Dies wird durch ein multiples Regressionsmodell wie folgt beschrieben. Rn ist die Überschussrendite von Aktien n (relativ zum risikofreien Zinssatz), x ist das Faktorengagement von Aktien n gegenüber jedem Faktor (k, j, i), f ist die Faktorrendite und en ist die spezifische Rendite. Wichtig ist hier die Idee der Faktorrendite.
Der Einfachheit halber verwenden wir ein Einzelfaktormodell anstelle eines Multifaktormodells. Als konkretes Beispiel wird die Erklärung außerdem mit der Datensatzstruktur von Numerai fortgesetzt. Die Faktorrückgabe gibt den Regressionskoeffizienten f in der folgenden Querschnittsregression an. r ist der Zielvektor in eraX und x ist der Vektor von featureA in eraX.
Der Faktor Rendite ist ein Index dafür, wie viel Rendite durch Wetten auf den Risikofaktor im Universum erwartet werden kann. Das Faktor-Exposure gibt an, wie stark die Aktie dem Risikofaktor (exponiert) ausgesetzt ist. Je größer dieser ist, desto größer ist der Nutzen aus der Faktor-Rendite. Wie Sie der obigen Formel entnehmen können, handelt es sich bei diesem Regressionsmodell um ein Querschnittsmodell in einem bestimmten Zeitraum (eraX). Bei der tatsächlichen Überprüfung wird dieses Modell in Zeitreihen für jeden Zeitraum (z. B. monatlich) akkumuliert und seine Merkmale werden beobachtet. Getan werden.
Unten finden Sie einen Teilauszug der Faktorrenditen aus dem BARRA GEM-Material. Der Grund, warum sich die Faktorrendite bemerkenswert nach oben ändert, ist, dass Sie eine stabile Rendite erzielen können, wenn Sie auf diesen Faktor setzen. Wenn es dagegen deutlich nach rechts fällt, können Sie umgekehrt auf diesen Faktor setzen (Long und Short tauschen). Im aktuellen Jahr 2020 gibt es nur wenige Fälle, in denen sich die Faktorrendite erheblich in eine Richtung ändert. Daher sollte das Portfolio unter Berücksichtigung des Faktor-Exposures jeder Aktie so organisiert werden, dass die Wetten auf verschiedene Faktoren verteilt werden können. (Abbildung: Erstellt vom Autor aus Referenz [3])
Da die Faktorrendite ein Regressionskoeffizient ist, kann sie unter Verwendung der Volatilität der objektiven und erklärenden Variablen in Korrelation umgewandelt werden. In der folgenden Gleichung ist b der Regressionskoeffizient der erklärenden Variablen x für die Zielvariable y, σxy ist die Kovarianz von x und y und σx und σy sind die Standardabweichungen von x bzw. y. Die Korrelation ist ein durch die Volatilität korrigierter und zwischen -1 und 1 standardisierter Faktor-Rendite-Regressionskoeffizient.
Korrelation ist ein sehr wichtiger Indikator in Risikomodellen und damit in der aktiven Anlagentheorie. In der aktiven Managementtheorie wird Korrelation als Informationskoeffizient bezeichnet und ist ein Indikator für die Fähigkeiten von Anlegern. Eine ausführliche Erklärung hier fehlt. Interessenten sollten sich auf die bekanntesten Bücher zur aktiven Operationstheorie beziehen [4].
Hier wird die Faktorrückgabe (berechnet durch Korrelation) jedes Merkmals von Numerai beschrieben. Es wird einfach durch einen einzelnen Faktor berechnet, nicht durch einen Multi-Faktor. Anhand dieser Abbildung kann auf einen Blick festgestellt werden, welches Merkmal welches Merkmal hat und wie viel Erklärungskraft es hat.
Es ist zu beachten, dass diese Faktorrenditen Variationen aufgrund von Zufälligkeit enthalten. Das Folgende ist eine Monte-Carlo-Simulation für Korrelation = 0,0 und Korrelation = 0,005 (100 Versuche). Es sollte immer bedacht werden, dass dieser Grad der Variation der Zufälligkeit auftritt. Es ist ein sehr schwieriges Problem, die statistische Signifikanz in der Stichprobenperiode von etwa 120 zu beurteilen. Geschicklichkeit 4 und 7 haben natürlich die bemerkenswertesten Faktorrenditen.
Wenn Sie so denken, können Sie sehen, warum Numerai mit Korrelation bewertet. Die von jedem von uns Turnierteilnehmern eingereichten Vorhersagen sind selbst ein Faktor, der für Numerai informativer ist als vorhandene Funktionen. Numerai sucht nach hervorragenden Faktorrenditen, die die Teilnehmer unabhängig voneinander erstellt haben. Wenn die Faktorrendite ausgezeichnet ist, kann Numerai durch einfaches Kombinieren arbeiten, oder in einigen Fällen können die einzelnen Faktoren, die zur Verbesserung der Leistung gesammelt wurden, weiter trainiert werden.
In diesem Kapitel werden wir uns überlegen, wie es wäre, herkömmliche Risikofaktoren als Merkmale für maschinelles Lernen einzubeziehen. In erster Linie sind die Merkmale Land und Industrie.
Country Feature Numerai gilt als sein Anteil an wichtigen Märkten auf der ganzen Welt. In den Daten des Numerai-Turniers ist die ID jeder Aktie verschlüsselt, und es gibt keine Möglichkeit, dies zu wissen. Da die Zielbestandsliste jedoch in Numerai Signals veröffentlicht wurde, habe ich versucht, sie zu aggregieren. Ich frage mich, ob es in Bezug auf die Anzahl der Aktien das gleiche ist wie das aktuelle Numerai-Turnier. Numerai Signals hat 41 Marken, von denen die meisten die USA sind, gefolgt von Japan, Südkorea und Großbritannien. Es ist möglich, dass diese nicht einfach als Land, sondern als Region in einem Feature (Nordamerika, Südamerika, Pazifik usw.) importiert werden.
In einem normalen Risikomodell wird die Länderfunktion als kategoriale Variable 0/1 eingeführt. Der Datensatz von Numerai beträgt jedoch im Grunde genommen etwa 5 Minuten, und die Anzahl der Bestände an jedem Ort ist häufig gleich. Wenn es auf diese Weise dargestellt wird, führen Sie als Sie selbst mehrere Regressionen für den Index jedes Landes (oder jeder Region) durch und teilen Sie die Beta als Feature-Menge auf.
Wenn Sie dies beispielsweise tun, haben japanische Aktien ein größeres Beta als der TSE-Index und sammeln sich in den größeren Abteilungen in ihren Merkmalen (oder in kleineren Abteilungen in Abhängigkeit vom Code der Klassifizierung). Wenn dann die Länderfunktion vorhanden ist, ist die wichtigste die extremste, und die anderen sind als Informationen nicht erforderlich. In Numerais analyse_und_tips gab es einen Bericht, dass der Merkmalswert 0 oder 1 war und das Merkmal extrem erschien, aber ich denke, dass dies möglich ist.
Als Referenz wird der Übergang der relativen Renditen in jedem Land seit 2010 gezeigt.
Industry Feature Das nächste wichtige Element ist die Branchenfunktion. Im Marktmagier gibt Steve Cohen an, dass 40% der Aktienbewegungen vom Markt, 30% von der Industrie und die restlichen 30% von einzelnen Faktoren getrieben werden. Diese Funktion kann nicht integriert worden sein. Es gibt verschiedene Branchendefinitionen, aber BARRA GEM definiert 38 Branchen. Darüber hinaus sind in GICS 60 Sektoren definiert, und in RBICS, die von FactSet bereitgestellt werden, sind 12 Sektoren, 31 Sektoren und 89 Themen definiert. Als Referenz wird die Anzahl der Aktien nach Wirtschaft auf dem US-Markt angezeigt.
Ähnlich wie bei Land kann die Branche durch das Beta der multiplen Regression für den Branchenindex als Merkmalsmenge geteilt werden. Auch in diesem Fall ist die wichtigste Abteilung die wichtigste Abteilung, und die anderen Abteilungen sind als Information nicht erforderlich.
Als Referenz wird der Übergang der relativen Renditen in jeder Branche auf dem US-Markt seit 2010 gezeigt.
Risk Index Feature Es ist sehr wahrscheinlich, dass der Risikoindex diejenigen enthält, die in BARRA verwendet werden. Größe, Wert, Erfolg (Momentum), Volatilität. Diese können einfach berücksichtigt werden, werden jedoch häufig unter Berücksichtigung der Verzerrung aufgrund von Abteilungen wie Land und Industrie normalisiert. Wenn es sich um eine Größe handelt, können nicht nur der Marktwert, sondern auch Faktoren wie Umsatz, Bilanzsumme und Anzahl der Mitarbeiter berücksichtigt werden. Wenn es sich um einen Wert handelt, können PBR, PER, PCFR usw. berücksichtigt werden. Andere Risikoindizes umfassen Liquidität, Wachstum, Dividenden und finanzielle Hebelwirkung. Zusätzlich zu diesen traditionellen Risikoindizes können auch alternative Variablen wie sentimentale Indizes erfasst werden, die aus Analysteninformationen und Nachrichten extrahiert wurden.
Als Referenz wird der relative Renditeübergang jedes Risikoindex auf dem US-Markt seit 2010 angezeigt.
In diesem Kapitel wird beschrieben, wie die Leistung durch maschinelles Lernen für herkömmliche Quants verbessert werden kann.
Das Barra-Modell ist einfach ein gewichteter Durchschnitt der einzelnen Risikofaktoren. Es gibt eine einfache und bequeme Möglichkeit, dies ein wenig weiterzuentwickeln. Das heißt, eine Interaktion zu nehmen. Um ein einfaches Beispiel zu nennen: Es gibt Branchen, in denen Wert effektiv ist, und Branchen, in denen Wert nicht effektiv ist. Am Beispiel der Größe einer Marke und nicht der Art der Branche gibt es Faktoren, die für große Aktien wirksam sind, und Faktoren, die für kleine Aktien wirksam sind. Darüber hinaus übertreffen je nach Land verschiedene Branchen. Ein lineares Modell ist für die Berücksichtigung solcher Wechselwirkungen ungeeignet. Dies liegt daran, dass in einem linearen Modell der Begriff der Interaktion von einem Menschen angegeben und als Merkmal festgelegt werden muss. Wenn es sich um eine baumbasierte Methode handelt, kann das Modell die Interaktion unabhängig und ohne Absicht lernen. Andererseits ist die baumbasierte Methode nicht gut für die lineare Klassifizierung geeignet, da sie sich in ein Gittermuster aufteilt, und sie ist nicht gut für das Verständnis der Risikoprämie selbst des ursprünglichen BARRA-Modells.
Die Lösung hierfür ist das Ensemble und Stapeln von Linear- und Baummodellen. Beim eigentlichen Zwei-Sigma-Wettbewerb in Kaggle gewannen das lineare Modell Ridge Regression und das Baummodell Extra Trees Ensemble die Hauptpreise [5]. (Abbildung: Aus Referenz [5])
Andererseits gibt es Fälle, in denen Deep Learning als Modell verwendet wird. Dies ist eine Technik, die als Deep Factor-Modell bezeichnet wird [6]. Beim konventionellen Quants-Management führt der Fondsmanager, der der Manager ist, den Prozess von der Faktorerstellung bis zur Auswahl auf der Grundlage von Erfahrung durch. Im Deep-Factor-Modell wird jedoch durch Ersetzen durch Deep Learning das menschliche Urteilsvermögen und das individuelle Urteilsvermögen beseitigt. Der Zweck besteht darin, die Nichtlinearität des Faktors zu erfassen.
Diese Methode verwendet 80 Faktoren, um monatliche Renditen vorherzusagen, was bestätigt, dass sie Vorhersagen aus linearen Modellen und anderen Methoden des maschinellen Lernens (SVR und Random Forest) übertreffen kann. (Abbildung: Aus Lit. [6])
Durch die Verwendung von maschinellem Lernen auf diese Weise ist es meines Erachtens relativ einfach, das traditionelle Quants-Modell zu übertreffen. Auf der anderen Seite gibt es jedoch Fallstricke wie eine Verschlechterung der Lesbarkeit aufgrund der Komplexität des Modells und Überlernen und Schnüffeln, sodass für die Erstellung des Modells Kenntnisse und Intuition erforderlich sind, die dem Finanzbereich eigen sind. Informationen zu technischen Techniken finden Sie im Buch Finance Machine Learning von Numerais Berater Prado [7].
In diesem Artikel habe ich das Konzept des traditionellen Quants-Betriebs erläutert, eine Methode zum Einbeziehen herkömmlicher Risikofaktoren als Merkmale beschrieben und erklärt, wie herkömmliche Quants und maschinelles Lernen miteinander kombiniert werden. Sie können sehen, dass traditionelle Quants mit dem neuesten maschinellen Lernen kombiniert werden können, um die Produktionsleistung weiter zu verbessern.
Wenn sich die Leser mehr für den tatsächlichen Markt interessieren, indem sie lernen, wie man den Markt auf der Grundlage des herkömmlichen Quants-Konzepts beobachtet, sollte die Analyse bei Numerai noch angenehmer sein. Wir hoffen, dass dieser Artikel die Neugier der Leser weckt und das Modell inspiriert. Vielen Dank für das Lesen bis zum Ende.
Beim Schreiben dieses Artikels möchten wir dem Numerai-Management für die Bereitstellung von Bildern und die Kalibrierung des Textes danken. Wir möchten diese Gelegenheit nutzen, um Ihnen zu danken.
[1]Barr Rosenberg, Marathe Vinay, "The prediction of investment risk: Systematic and residual risk", 1975 [2]Peter Bernstein, "Capital ideas: The improbable origins of modern Wall Street", 1992 [3]Barra global equity model handbook [4]Richard Grinold, Ronald Kahn, "Active portfolio management", 1995 [5]Team Best Fitting, "Two Sigma Financial Modeling Code Competition, 5th Place Winners’ Interview", 2017 [6]Kei Nakagawa, Takumi Uchida, "Deep Factor Model: Explaining deep learning decisions for forecasting stock returns with LRP", 2018 [7]Marcos Lopez de Prado, "Advances in financial machine learning", 2018
Recommended Posts