[PYTHON] Tournoi Numerai - Fusion de quants traditionnels et apprentissage automatique -

introduction

Cet article a été contribué à Medium's Towards Data Science "[Numerai Tournament: Blending Traditional Quantitative Approach & Modern Machine Learning](https://towardsdatascience.com/numerai-tournament] -blending-traditional-quantitative-approach-modern-machine-learning-67ebbb69e00c) "est traduit en japonais.

À propos du tournoi Numerai

Numerai est un fonds de sourcing dans le cloud, un hedge fund géré sur la base des résultats des prévisions de cours des actions par un nombre indéterminé de personnes. Numerai organisera un tournoi pour concourir pour des performances prédictives. Les participants au tournoi construisent et soumettent un modèle prédictif basé sur l'ensemble de données fourni par Numerai. Les participants sont classés en fonction de leur performance prévue et sont payés (et peuvent être collectés). Les investisseurs de Numerai incluent Howard Morgan, co-fondateur de Renaissance Technologies, Paul Tudor Jones, fondateur de Tudor Investments, Union Square Ventures, une société de capital-risque américaine établie de longue date, et d'autres. Comprend des VC et des hedge funds expérimentés, et l'ensemble de données est supervisé par un conseiller spécialisé en finance M / L. Le montant total des prix versés aux participants jusqu'à présent a dépassé 34 millions de dollars et on estime que l'avancement du projet est bon. Medium Skyscraper A Sigil.png (Image: fournie par Numerai)

A propos de l'auteur

L'auteur gère les actifs des actions japonaises en utilisant une méthode appelée market neutral. La neutralité du marché consiste à prédire la hausse et la baisse relatives des cours des actions au sein de l'univers (actions à investir), et de viser des rendements absolus qui ne dépendent pas des mouvements des prix du marché en combinant l'achat et la vente. L'auteur construit ce modèle de prévision du cours des actions en utilisant l'apprentissage automatique, basé sur les méthodes et les statistiques traditionnelles de Quants. Les résultats opérationnels sont bons et le rendement est d'environ 40%.

Objectif de cet article

Dans cet article, je partagerai les conclusions que j'ai acquises dans le processus de construction d'un modèle opérationnel. Tout d'abord, je vais expliquer le concept d'opération Quants traditionnelle et discuter de la manière de le combiner avec l'apprentissage automatique pour créer le dernier modèle prédictif.

Remarque

L'ensemble de données de Numerai est obscurci et je n'ai aucune information privilégiée à ce sujet. Le contenu de cet article est d'un point de vue unique basé sur mon expérience d'investissement et de modélisation.

Méthode traditionnelle de Quants

Des études sur la prévision des rendements boursiers sont menées depuis longtemps. Tout d'abord, expliquons ce qu'est la méthode traditionnelle Quants, à partir de son contexte.

Modèle de risque BARRA

Le prototype des Quants actuels serait le modèle de risque préconisé par Bar Rosenberg. [1] Il existe différentes théories à ce sujet, mais pour connaître l'histoire de Wall Street par ici, vous devriez certainement lire le livre de Peter Bernstein Capital Ideas (titre de traduction en japonais "Thought Revolution of Securities Investment") [2].

Dans les années 1960, Rosenberg a conçu une méthode pour expliquer les risques des entreprises individuelles en utilisant divers facteurs, basée sur le modèle de covariance de Markovitz. Il a constaté que ces facteurs de risque étaient liés à des rendements excédentaires sur les cours des actions (prime de risque). En 1975, Rosenberg a fondé Bar Rosenberg Associates, une société de conseil. L'entreprise est devenue connue des managers du monde entier sous le nom de BARRA.

Aujourd'hui, le modèle BARRA est le modèle de risque le plus connu, fourni par MSCI en tant que fournisseur. D'autres modèles de risque incluent Axioma. Il existe différents types de modèles BARRA, mais le modèle BARRA Global Equity (GEM) est un modèle de risque pour les actions des principaux marchés boursiers du monde [3]. Dans ce modèle, les rendements des actions sont ventilés en facteurs pays, facteurs industriels, facteurs de risque et facteurs individuels comme suit. 01.png

Ceci est décrit par un modèle de régression multiple comme suit. Rn est le rendement excédentaire de l'action n (par rapport au taux d'intérêt sans risque), x est l'exposition au facteur de l'action n à chaque facteur (k, j, i), f est le rendement du facteur et en est le rendement spécifique. Ce qui importe ici, c'est l'idée de retour des facteurs. 02.png

Retour de facteur

Pour simplifier, nous utiliserons un modèle à facteur unique au lieu d'un modèle à facteurs multiples. De plus, à titre d'exemple concret, l'explication continuera avec la structure de l'ensemble de données de Numerai. Le retour du facteur indique le coefficient de régression f dans la régression transversale suivante. r est le vecteur cible dans eraX et x est le vecteur de featureA dans eraX. 03.png

Le rendement du facteur est un indice du rendement auquel on peut s'attendre en pariant sur le facteur de risque dans l'univers. L'exposition au facteur indique dans quelle mesure l'action est exposée au facteur de risque (exposé), et plus elle est élevée, plus le bénéfice du rendement du facteur est important. Comme vous pouvez le voir à partir de la formule ci-dessus, ce modèle de régression est un modèle en coupe transversale dans une période spécifique (eraX), et dans la vérification réelle, il est accumulé dans des séries chronologiques pour chaque période (par exemple, mensuelle) et ses caractéristiques sont observées. Sera fait.

Vous trouverez ci-dessous un extrait partiel des rendements factoriels du matériel BARRA GEM. La raison pour laquelle le rendement du facteur change remarquablement à la hausse est que si vous pariez sur ce facteur, vous pouvez obtenir un rendement stable. En revanche, s'il tombe significativement vers la droite, vous pouvez parier sur ce facteur en sens inverse (swap long et short). Dans le courant 2020, il y a peu de cas où le rendement du facteur change de manière significative dans une direction. Par conséquent, en tenant compte de l'exposition aux facteurs de chaque action, le portefeuille doit être organisé de manière à ce que les paris puissent être répartis sur divers facteurs. 04.png (Figure: Créé par l'auteur à partir de la référence [3])

Relation entre le rendement des facteurs et la corrélation

Puisque le rendement du facteur est un coefficient de régression, il peut être converti en corrélation en utilisant la volatilité des variables objectives et explicatives. Dans l'équation ci-dessous, b est le coefficient de régression de la variable explicative x pour la variable objective y, σxy est la covariance de x et y, et σx et σy sont les écarts-types de x et y, respectivement. La corrélation est un coefficient de régression facteur-rendement corrigé par la volatilité et normalisé entre -1 et 1. 05.png

La corrélation est un indicateur très important dans les modèles de risque et donc dans la théorie de l'investissement actif. Dans la théorie de la gestion active, la corrélation est appelée coefficient d'information et est un indicateur des compétences des investisseurs. L'explication détaillée ici est omise. Ceux qui sont intéressés devraient se référer aux livres les plus célèbres sur la théorie des opérations actives [4].

Ici, le facteur de retour (calculé par corrélation) de chaque fonctionnalité de Numerai est décrit. Il est calculé simplement par un seul facteur, et non par un multi-facteur. À partir de cette figure, il est possible de déterminer en un coup d'œil quelle fonctionnalité possède quel type de fonctionnalité et quel pouvoir explicatif elle possède par elle-même. 06.png

Il convient de noter que ces rendements factoriels incluent des variations dues au hasard. Voici une simulation de Monte Carlo pour corrélation = 0,0 et corrélation = 0,005 (100 essais). Il faut toujours garder à l'esprit que ce degré de variation du caractère aléatoire se produit. Il est très difficile de juger de la signification statistique dans la période d'échantillonnage d'environ 120. Bien sûr, les dextérité 4 et 7 ont les rendements factoriels les plus remarquables. 07.png

À propos de l'évaluation par corrélation

En pensant de cette façon, vous pouvez voir pourquoi Numerai évalue avec la corrélation. La prédiction soumise par chacun de nous, participants au tournoi, est elle-même un facteur plus informatif pour Numerai que les fonctionnalités existantes. Numerai recherche d'excellents rendements factoriels que les participants ont créés indépendamment. Si le rendement des facteurs est excellent, Numerai peut fonctionner en les combinant simplement ou, dans certains cas, les facteurs individuels rassemblés pour améliorer les performances peuvent être davantage formés.

Facteur de risque en tant que caractéristique

Dans ce chapitre, nous examinerons ce que serait l'incorporation de facteurs de risque conventionnels en tant que fonctionnalités d'apprentissage automatique. La première chose importante est la fonction Pays et la fonction Industrie.

Country Feature Numerai est considéré comme ayant des actions sur les principaux marchés du monde entier comme son univers. Dans les données du tournoi Numerai, l'identifiant de chaque stock est crypté, et il n'y a aucun moyen de le savoir. Cependant, puisque la liste de stock cible a été publiée dans Numerai Signals, j'ai essayé de l'agréger. Je me demande si c'est le même que le tournoi Numerai actuel en termes de nombre d'actions. Numerai Signals compte 41 marques, le plus grand nombre étant les États-Unis, suivis du Japon, de la Corée du Sud et du Royaume-Uni. Il est possible que ceux-ci ne soient pas simplement importés en tant que pays, mais en tant que région dans une entité (Amérique du Nord, Amérique du Sud, Pacifique, etc.). 08.png

Dans un modèle de risque normal, la fonction Pays est introduite comme une variable catégorielle 0/1. Cependant, l'ensemble de données de Numerai dure essentiellement environ 5 minutes, et le nombre d'actions à chaque endroit est souvent le même. Par conséquent, s'il est présenté de cette manière, si vous êtes vous-même, effectuez une régression multiple sur l'index de chaque pays (ou de chaque région) et divisez la version bêta comme une quantité de caractéristiques. 09.png

Par exemple, si vous faites cela, les actions japonaises auront un bêta plus grand que l'indice TSE et se regrouperont dans les divisions les plus grandes dans leurs caractéristiques (ou dans les divisions plus petites selon le code de la classification). Ensuite, si la fonction Pays existe, la plus importante est la plus extrême et les autres ne sont pas nécessaires en tant qu'informations. Il y avait un rapport dans Analysis_and_tips de Numerai que la valeur de la fonctionnalité était 0 ou 1 et que la fonctionnalité semblait extrêmement, mais je pense que c'est possible.

À titre de référence, la transition des rendements relatifs dans chaque pays depuis 2010 est indiquée. 01-01.png

Industry Feature La prochaine chose importante est la fonction Industrie. Dans le magicien du marché, Steve Cohen déclare que 40% des mouvements boursiers sont tirés par le marché, 30% par l'industrie et les 30% restants par des facteurs individuels. Cette fonctionnalité ne peut pas avoir été intégrée. Il existe différentes définitions de l'industrie, mais BARRA GEM définit 38 industries. En outre, 60 secteurs sont définis dans GICS, et 12 Économie, 31 Secteur et 89 Sujets sont définis dans RBICS fourni par FactSet. À titre de référence, le nombre d'actions par économie sur le marché américain est indiqué. 10.png

Comme pour le pays, le secteur peut être divisé par la bêta de régression multiple pour l'indice du secteur en tant que quantité de caractéristiques. Dans ce cas également, la division la plus importante est la division la plus importante, et les autres divisions ne sont pas nécessaires comme information. 11.png

À titre de référence, la transition des rendements relatifs dans chaque industrie sur le marché américain depuis 2010 est indiquée. 01-02.png

Risk Index Feature Il est fort possible que l'indice de risque inclue ceux utilisés dans BARRA. Taille, valeur, succès (momentum), volatilité. Ceux-ci peuvent être simplement pris en compte, mais ils sont souvent normalisés en tenant compte du biais dû à des divisions telles que le pays et l'industrie. Pour la taille, des facteurs tels que les ventes, l'actif total et le nombre d'employés peuvent être pris en compte ainsi que la valeur marchande. S'il s'agit d'une valeur, PBR, PER, PCFR, etc. peuvent être pris en compte. Les autres indices de risque comprennent la liquidité, la croissance, les dividendes et le levier financier. En plus de ces indices de risque traditionnels, des variables alternatives telles que les indices sentimentaux extraits des informations et des actualités des analystes peuvent également être capturées.

À titre de référence, la transition de rendement relatif de chaque indice de risque sur le marché américain depuis 2010 est indiquée. 01-03.png

Fusion des quants traditionnels et de l'apprentissage automatique

Ce chapitre décrit la méthodologie d'utilisation de l'apprentissage automatique pour améliorer les performances par rapport aux Quants traditionnels.

Modèle d'arbre

Le modèle de Barra est simplement une moyenne pondérée des facteurs de risque individuels. Il existe un moyen simple et pratique de développer un peu plus cela. C'est prendre une interaction. Pour donner un exemple simple, il existe des industries où la valeur est efficace et des industries où la valeur n'est pas efficace. En prenant comme exemple l'échelle d'une marque plutôt que le type d'industrie, il y a des facteurs sur lesquels il est facile de travailler avec de grands stocks et des facteurs qui sont faciles à travailler avec de petits stocks. De plus, différentes industries surperforment selon les pays. Un modèle linéaire ne convient pas pour considérer de telles interactions. En effet, dans un modèle linéaire, le terme d'interaction doit être spécifié par un humain et défini comme une caractéristique. S'il s'agit d'une méthode arborescente, le modèle peut apprendre l'interaction indépendamment sans aucune intention. D'un autre côté, la méthode arborescente n'est pas bonne pour la classification linéaire parce qu'elle se divise en quadrillage, et n'est pas bonne pour comprendre la prime de risque elle-même du modèle BARRA original.

La solution à cela est l'ensemble et l'empilement de modèles linéaires et arborescents. Dans le concours à deux sigma qui s'est tenu à Kaggle, le modèle linéaire de régression Ridge et le modèle d'arbre Extra Trees ont remporté les premiers prix [5]. 12.png (Figure: à partir de la référence [5])

Modèle à facteur profond

D'un autre côté, il existe des cas où le deep learning est utilisé comme modèle. Il s'agit d'une technique appelée le modèle Deep Factor [6]. Dans la gestion conventionnelle de Quants, le gestionnaire de fonds qui est le gestionnaire effectue le processus de la création des facteurs à la sélection basée sur l'expérience, mais dans le modèle Deep Factor, en le remplaçant par un apprentissage en profondeur, le jugement humain est éliminé et le jugement individuel est éliminé. Le but est de saisir la non-linéarité du facteur.

Cette méthode utilise 80 facteurs pour prédire les rendements mensuels, confirmant qu'elle peut surpasser les prévisions des modèles linéaires et d'autres méthodes d'apprentissage automatique (SVR et forêt aléatoire). 13.png (Figure: à partir de la référence [6])

En utilisant l'apprentissage automatique de cette manière, je pense qu'il est relativement facile de surpasser le modèle traditionnel de Quants. Cependant, d'un autre côté, il existe des écueils tels que la détérioration de la lisibilité en raison de la complexité du modèle et des biais de surapprentissage et d'espionnage, de sorte que la connaissance et l'intuition propres au domaine de la finance sont nécessaires pour construire le modèle. Pour les techniques techniques autour de cela, vous devriez vous référer au livre Finance Machine Learning par le conseiller de Numerai Prado [7].

en conclusion

Dans cet article, j'ai expliqué le concept de fonctionnement traditionnel des Quants, décrit une méthode d'incorporation de facteurs de risque conventionnels en tant que caractéristiques et expliqué comment les Quants conventionnels et l'apprentissage automatique sont mélangés. Vous pouvez voir que les quants traditionnels peuvent être combinés avec l'apprentissage automatique moderne pour améliorer encore les performances de production.

De plus, si les lecteurs s'intéressent davantage au marché réel en apprenant à observer le marché sur la base du concept conventionnel des Quants, l'analyse chez Numerai devrait être encore plus agréable. Nous espérons que cet article inspirera la curiosité des lecteurs et inspirera le modèle. Merci d'avoir lu jusqu'au bout.

Merci

En écrivant cet article, nous remercions la direction de Numerai d'avoir fourni des images et calibré le texte. Nous aimerions profiter de cette occasion pour vous remercier.

Les références

[1]Barr Rosenberg, Marathe Vinay, "The prediction of investment risk: Systematic and residual risk", 1975 [2]Peter Bernstein, "Capital ideas: The improbable origins of modern Wall Street", 1992 [3]Barra global equity model handbook [4]Richard Grinold, Ronald Kahn, "Active portfolio management", 1995 [5]Team Best Fitting, "Two Sigma Financial Modeling Code Competition, 5th Place Winners’ Interview", 2017 [6]Kei Nakagawa, Takumi Uchida, "Deep Factor Model: Explaining deep learning decisions for forecasting stock returns with LRP", 2018 [7]Marcos Lopez de Prado, "Advances in financial machine learning", 2018

Recommended Posts

Tournoi Numerai - Fusion de quants traditionnels et apprentissage automatique -
Importance de l'apprentissage automatique et de l'apprentissage par mini-lots
Bases de l'apprentissage automatique (mémoire)
Importance des ensembles de données d'apprentissage automatique
Apprentissage automatique et optimisation mathématique
Apprentissage automatique ③ Résumé de l'arbre de décision
Classification et régression dans l'apprentissage automatique
Organisez des plateformes d'apprentissage automatique et d'apprentissage en profondeur
Résumé des API recommandées pour l'intelligence artificielle, l'apprentissage automatique et l'IA
[Apprentissage automatique] Résumé et exécution de l'évaluation / des indicateurs du modèle (avec jeu de données Titanic)
[Apprentissage automatique] OOB (Out-Of-Bag) et son ratio
Algorithme d'apprentissage automatique (généralisation de la régression linéaire)
Signification des modèles et paramètres d'apprentissage en profondeur
20 sélections recommandées en 2020 de livres d'introduction à l'apprentissage automatique
Apprentissage automatique
Algorithme d'apprentissage automatique (implémentation de la classification multi-classes)
Notes personnelles et liens sur l'apprentissage automatique ① (Machine learning)
Résumé de la classification et de la mise en œuvre des algorithmes d'apprentissage automatique
Créer un environnement pour Python et l'apprentissage automatique (macOS)
[Apprentissage automatique] Liste des packages fréquemment utilisés
"Tutoriels OpenCV-Python" et "Système d'apprentissage automatique pratique"
Procédure d'apprentissage automatique de base: ③ Comparez et examinez la méthode de sélection de la quantité de caractéristiques
Python: prétraitement en machine learning: gestion des données manquantes / aberrantes / déséquilibrées
Méthode d'évaluation du problème de régression d'apprentissage automatique (erreur quadratique moyenne et coefficient de décision)
[Pour les débutants en intelligence artificielle] Parcours d'apprentissage et de référence en apprentissage automatique / programmation en profondeur
Apprentissage automatique: reconnaissance d'image de MNIST à l'aide de PCA et de Gaussian Native Bayes
Prédire les travaux de courte durée de Weekly Shonen Jump par apprentissage automatique (Partie 2: Apprentissage et évaluation)
Liste des principales distributions de probabilité utilisées en apprentissage automatique et statistiques et code en python
Mémo d'apprentissage automatique d'un ingénieur débutant Partie 1
Classification des images de guitare par apprentissage automatique Partie 1
Étudiez l'apprentissage automatique et l'informatique. Liste des ressources
Apprentissage automatique du sport-Analyse de la J-League à titre d'exemple-②
Mémo d'étude Python & Machine Learning ⑤: Classification d'Ayame
Un mémorandum d'étude et de mise en œuvre du Deep Learning
Mémo d'étude Python & Machine Learning ②: Introduction de la bibliothèque
Divulgation complète des méthodes utilisées dans l'apprentissage automatique
Division des données de formation en apprentissage automatique et apprentissage / prédiction / vérification
Liste des liens que les débutants en apprentissage automatique apprennent
Apprentissage parallèle du deep learning par Keras et Kubernetes
Vue d'ensemble des techniques d'apprentissage automatique apprises grâce à scikit-learn
À propos du contenu de développement de l'apprentissage automatique (exemple)
Résumé des fonctions d'évaluation utilisées dans l'apprentissage automatique
Analyse de l'utilisation de l'espace partagé par l'apprentissage automatique
Prévision du cours de l'action par machine learning Numerai Signals
[Français] scikit-learn 0.18 Introduction de l'apprentissage automatique par le didacticiel scikit-learn
Mémo d'apprentissage automatique d'un ingénieur débutant Partie 2
Estimation raisonnable du prix de Mercari par apprentissage automatique
Classification des images de guitare par apprentissage automatique, partie 2
Touchons une partie de l'apprentissage automatique avec Python
Essayez d'utiliser le bloc-notes Jupyter à partir d'Azure Machine Learning
Disposition des éléments auto-mentionnés liés à l'apprentissage automatique
Raisonnement causal utilisant l'apprentissage automatique (organisation des méthodes de raisonnement causal)
[Apprentissage automatique] "Détection d'anomalies et détection de changement" Dessinons la figure du chapitre 1 en Python.
[Memo] Apprentissage automatique
Classification de l'apprentissage automatique
Exemple d'apprentissage automatique
Apprentissage automatique avec Raspberry Pi 4 et Coral USB Accelerator
Points clés de «Machine learning avec Azure ML Studio»
Note d'apprentissage Python de Mayungo: liste d'histoires et de liens