[PYTHON] Résumé de la méthode Kaggle's Kernel [Table time series data]

Dans cet article, j'écrirai quelque chose comme une norme pour chaque type de données dans le concours Kaggle. De plus, je pense que ce serait bien si cela pouvait être un indice lorsque la précision ne ressort pas quelle que soit la concurrence.

alt

Cette fois, nous aborderons les ensembles de données de compétition suivants. Dans le cas de la concurrence, il n'y a pas de noyau, donc j'irai avec Notebooks ensemble. Predict Future Sales Avocado Prices

1.Predict Future Sales

Type: retour Résumé: prédisez le nombre de produits vendus le mois prochain à partir du nom du magasin, du nom du produit, etc.

1.1Time series Basics : Exploring traditional TS

Analyse effectuée résultat
Visualisation de l'histogramme du nombre de caractéristiques Découvert qu'il y a un biais dans la catégorie
Graphique des caractéristiques par ordre chronologique Vous pouvez voir qu'il y a un changement de tendance à chaque saison
ADF,KPSS,Stationnarité avec PP(Périodicité)vérifier Périodicitéの有無を知る
AR, MA,Essayez le modèle ARMA, etc.

En outre, nous présentons comment aborder la série chronologique hiérarchique, ascendante, descendante et intermédiaire.

Pour le moment, il est important pour les données de séries chronologiques de réduire les hauts et les bas en fonction de la durée de la formule.

Relation

Forecasting Hierarchical Time Series using R

Analyse des séries temporelles de mesure avec R: AR, MA, ARMA, ARIMA modèle, prédiction

1.2 Feature engineering, xgboost

Analyse effectuée résultat
Visualisez les fonctionnalités J'ai trouvé les données de bruit, donc j'ai interpolé avec d'autres valeurs numériques
Ingénierie de la quantité de fonctionnalités(La moyenne mensuelle est calculée à partir des ventes quotidiennes, la moyenne des ventes sur une certaine période est ajoutée en tant que montant de fonction, etc.) Amélioration de la précision
Prédite par XG Boost

Les informations sous forme de série chronologique ont été régulièrement incorporées dans la quantité d'entités par l'ingénierie de la quantité d'entités, et la prédiction a été faite par xg boost. Cette ingénierie de quantité de fonctionnalités constante est incroyable ~

Relation

J'ai écrit un article sur l'ingénierie de la quantité de fonctionnalités dans le passé, alors veuillez également le consulter. Mémorandum d'ingénierie sur la quantité de fonctionnalités

1.3 A beginner guide for sale data prediction

Analyse effectuée résultat
Visualisation des fonctionnalités J'ai décidé de découvrir le modèle de chaque saison et de le réduire au nombre de fonctionnalités
Prédite par LSTM

1.4 1st place solution - Part 1 - "Hands on Data"

Analyse effectuée résultat
Ingénierie de la quantité de fonctionnalités(Groupez les magasins qui n'ont pas vendu depuis plusieurs mois, trouvez des noms de magasins en double, extrayez des catégories de noms et) Amélioration de la précision

Résumé

Comme vous pouvez le voir d'ici Visualisation des données-> Afficher les tendances des données-> Ingénierie des fonctionnalités-> Plongez dans les modèles

La routine est courante.

2.Avocado Prices Ensuite, j'aimerais en présenter un autre à partir de l'ensemble de données de séries chronologiques. De là, nous nous concentrerons sur la méthode utilisée.

Type: régression et classification Résumé: Données sur les ventes passées d'avocat

2.1 Price of Avocados || Pattern Recognition Analysis

La visualisation de ce noyau est trop belle et détaillée. Impressionné.

Méthode utilisée
Smoothing Moving Average
Seasonal Naive Method
Drift Method
ARIMA

2.2 Explore avocados from all sides! Ceci est également très bien visualisé. Il s'agit d'un problème de classification de l'avocat biologique ou non.

Méthode utilisée
logistic regression
RandomForest
KNeighborsClassifier

2.3 Predicting prices of avocados

Les outils utilisés
prophet

2.4 EDA + Lasso Ceci est également inclus dans le problème de classification.

Méthode utilisée
DecisionTree
RandomForest
KNeighbours
SVM
AdaBoostClassifier
GradientBoostingClassifier
Xgboost
Lasso
Ridge
Bayesian Ridge
ElasticNet
HuberRegressor

Résumé

L'ingénierie et la visualisation de la quantité de fonctionnalités sont importantes! alt

Lien

Liste des méthodes d'apprentissage automatique typiques

Recommended Posts

Résumé de la méthode Kaggle's Kernel [Table time series data]
Résumé de la méthode du noyau de Kaggle [Image]
[Python] Tracer des données de séries chronologiques
À propos des données de séries chronologiques et du surentraînement
Différenciation des données de séries chronologiques (discrètes)
Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques
<Pandas> Comment gérer les données de séries chronologiques dans le tableau croisé dynamique
Prédiction des données de séries chronologiques par projection simplex
Prédire les données de séries chronologiques avec un réseau neuronal
Juillet, un certain, M5 ~ Histoire d'échec de la compétition de données de séries chronologiques pour débutants Kaggle ~
Détection d'anomalies de données chronologiques pour les débutants
[Kaggle] J'ai essayé l'ingénierie de quantité de caractéristiques de données de séries chronologiques multidimensionnelles à l'aide de tsfresh
Comment gérer les données de séries chronologiques (mise en œuvre)
Lecture des données de séries chronologiques OpenFOAM et des ensembles de données
Obtenez des données de séries chronologiques de k-db.com avec Python
Acquisition de données chronologiques (quotidiennes) des cours des actions
Lissage des séries temporelles et des données de forme d'onde 3 méthodes (lissage)
Voir les détails des données de séries chronologiques dans Remotte
Comment lire les données de séries chronologiques dans PyTorch
Résumé de Kaggle: Outbrain # 2
Décomposition des séries temporelles
[Dernière méthode] Visualisation des données de séries chronologiques et extraction de modèles fréquents à l'aide du profil Pan-Matrix
Résumé de Kaggle: Outbrain # 1
Implémentation de la méthode de clustering k-shape pour les données de séries chronologiques [Apprentissage non supervisé avec python Chapitre 13]
Résumé lié à Kaggle
Détection d'anomalies des données de séries chronologiques par LSTM (Keras)
[Python] Résumé de la méthode de création de table utilisant DataFrame (pandas)
Prédiction de données chronologiques par AutoML (apprentissage automatique automatique)
Méthode d'extraction de données par lots à l'aide d'expressions régulières de Series