[PYTHON] À propos des données de séries chronologiques et du surentraînement

Comment empêcher le surapprentissage LGBM est l'un de mes sujets d'actualité ces jours-ci.

J'ai remarqué comment séparer les données de train et les données valides des données de séries chronologiques.

Jusqu'à présent, je pensais que la répartition aléatoire serait meilleure même pour les données de séries chronologiques. Pour faire simple, si vous divisez une certaine date et heure en un seuil, les données de train pour le printemps, l'été et l'automne seront apprises sans avoir d'informations sur l'hiver, il peut donc s'agir d'un modèle incomplet.

Cependant, il s'est avéré qu'il y avait un problème avec la répartition aléatoire. Cela dépend de la granularité du datetime, mais par exemple, les données de train contiennent les données de la minute immédiatement avant les données valides, il est donc extrêmement facile de surapprendre.

Ma meilleure pratique actuelle est de diviser l'année en quatre parties, printemps, été, automne et hiver, et de créer un modèle avec quatre modèles en fonction de la validité définie. Prenez la moyenne des valeurs prédites produites par les quatre modèles.

====

J'ai écrit une note il y a environ deux semaines, L'article suivant a exactement la même idée que je pensais, alors partagez-le! !!

http://tmitani-tky.hatenablog.com/entry/2018/12/19/001304

Il semble que scikit-learn a aussi quelque chose à valider comme je l'espère

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html

Recommended Posts

À propos des données de séries chronologiques et du surentraînement
Lecture des données de séries chronologiques OpenFOAM et des ensembles de données
[Python] Tracer des données de séries chronologiques
À propos de l'installation des séries Pwntools et Python2
Python: analyse des séries chronologiques: prétraitement des données des séries chronologiques
Graphique des données de séries chronologiques en Python à l'aide de pandas et matplotlib
Une histoire de regroupement de données de séries chronologiques d'échange
Différenciation des données de séries chronologiques (discrètes)
Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques
À propos de _ et __
Comparaison de la prédiction des données de séries chronologiques entre le modèle SARIMA et le modèle Prophet
Lors du traçage des données de séries chronologiques et de l'obtention d'une erreur de débordement matplotlib
Prédiction des données de séries chronologiques par projection simplex
Prédire les données de séries chronologiques avec un réseau neuronal
Détection d'anomalies de données chronologiques pour les débutants
Comment gérer les données de séries chronologiques (mise en œuvre)
Analyse des séries chronologiques n ° 6 Faux retour et partie républicaine
Décomposition des séries temporelles
Résumé de la méthode Kaggle's Kernel [Table time series data]
Acquisition de données chronologiques (quotidiennes) des cours des actions
Voir les détails des données de séries chronologiques dans Remotte
Comment lire les données de séries chronologiques dans PyTorch
Formater et afficher des données de séries chronologiques avec différentes échelles et unités avec Python ou Matplotlib
Python: analyse des séries chronologiques
Apprentissage automatique sur le surapprentissage
Quantité d'entités pouvant être extraite des données de séries chronologiques
Visualisez les données et saisissez la corrélation en même temps
[Dernière méthode] Visualisation des données de séries chronologiques et extraction de modèles fréquents à l'aide du profil Pan-Matrix
Question sur la série chronologique Python
Analyse des séries chronologiques RNN_LSTM1
Analyse des séries chronologiques 1 Principes de base
Prédiction de données chronologiques par AutoML (apprentissage automatique automatique)
À propos de la validation croisée et de la valeur F
Afficher les séries chronologiques TOPIX
Diagramme de séries chronologiques / Matplotlib
Il est temps de réfléchir sérieusement à la définition et aux compétences des data scientists
"Analyse des séries chronologiques de mesure des données économiques et financières" Résolution du problème de fin de chapitre avec Python
Je voulais m'inquiéter du temps d'exécution et de l'utilisation de la mémoire
Ceci et cela à propos de pd.DataFrame
Linux (À propos des fichiers et des répertoires)
Série Python 2 et série 3 (édition Anaconda)
À propos des objets et des classes Python
Traitement des données 3 (développement) À propos du format des données
À propos des variables et des objets Python
À propos des fichiers et des processus LINUX
À propos du groupe Raid et du LUN
À propos de la fonction fork () et de la fonction execve ()
À propos de la déconstruction et de la déconstructibilité de Django
Date et heure ⇔ chaîne de caractères
À propos de Python, len () et randint ()
À propos de la date et du fuseau horaire Python
À propos du ratio de Sharpe et du ratio de Sortino
Analyse des séries chronologiques partie 4 VAR
Analyse de séries chronologiques Partie 3 Prévisions
Modélisation de données point et figure
À propos de Python et des expressions régulières
Analyse de séries chronologiques Partie 1 Autocorrélation