[PYTHON] Zusammenfassung der Kaggle-Kernel-Methode [Tabelle Zeitreihendaten]

In diesem Artikel werde ich so etwas wie einen Standard für jeden Datentyp im Kaggle-Wettbewerb schreiben. Ich denke auch, dass es gut wäre, wenn es ein Hinweis sein könnte, wenn die Genauigkeit unabhängig von der Konkurrenz nicht herauskommt.

alt

Dieses Mal werden wir auf die folgenden Wettbewerbsdatensätze eingehen. Im Falle eines Wettbewerbs gibt es keinen Kernel, daher werde ich zusammen mit Notebooks arbeiten. Predict Future Sales Avocado Prices

1.Predict Future Sales

Typ: Rückgabe Zusammenfassung: Prognostizieren Sie die Anzahl der im nächsten Monat verkauften Produkte anhand des Geschäftsnamens, des Produktnamens usw.

1.1Time series Basics : Exploring traditional TS

Analyse durchgeführt Ergebnis
Visualisierung des Merkmalsmengenhistogramms Es wurde festgestellt, dass die Kategorie eine Verzerrung aufweist
Feature-Plot in chronologischer Reihenfolge Sie können sehen, dass sich die Trends zu jeder Jahreszeit ändern
ADF,KPSS,Stationarität mit PP(Periodizität)prüfen Periodizitätの有無を知る
AR, MA,Probieren Sie das ARMA-Modell usw. aus.

Darüber hinaus stellen wir in den hierarchischen Zeitreihen Bottom-Up, Top-Down und Middle-Out vor, wie Sie vorgehen müssen.

Für Zeitreihendaten ist es vorerst wichtig, wie die Höhen und Tiefen in Abhängigkeit von der Zeit bis zur Formel reduziert werden können.

Beziehung

Forecasting Hierarchical Time Series using R

Messung von Zeitreihen mit R: AR-, MA-, ARMA-, ARIMA-Modell, Vorhersage

1.2 Feature engineering, xgboost

Analyse durchgeführt Ergebnis
Funktionen visualisieren Ich habe die Rauschdaten gefunden und mit anderen numerischen Werten interpoliert
Feature Quantity Engineering(Der monatliche Durchschnitt wird aus den täglichen Verkäufen berechnet, der Durchschnitt der Verkäufe in einem bestimmten Zeitraum wird als Feature-Betrag hinzugefügt usw.) Verbesserte Genauigkeit
Vorausgesagt durch xg boost

Es war eine Form, in der Informationen als Zeitreihe durch Feature-Quantity-Engineering stetig in die Merkmalsmenge einbezogen und durch xg-Boost vorhergesagt wurden. Diese stetige Funktionsmengenentwicklung ist erstaunlich ~

Beziehung

Ich habe in der Vergangenheit einen Artikel über Feature Quantity Engineering geschrieben. Bitte lesen Sie ihn auch. Memorandum zum Feature Quantity Engineering

1.3 A beginner guide for sale data prediction

Analyse durchgeführt Ergebnis
Visualisierung von Features Ich beschloss, das Muster jeder Saison zu entdecken und es auf die Feature-Menge zu reduzieren
Vorausgesagt von LSTM

1.4 1st place solution - Part 1 - "Hands on Data"

Analyse durchgeführt Ergebnis
Feature Quantity Engineering(Gruppengeschäfte, die seit mehreren Monaten nicht mehr verkauft wurden, finden doppelte Geschäftsnamen, extrahieren Kategorien aus Namen usw.) Verbesserte Genauigkeit

Zusammenfassung

Wie Sie von hier aus sehen können Datenvisualisierung-> Datentrends anzeigen-> Feature Engineering-> In Modelle eintauchen

Die Routine ist üblich.

2.Avocado Prices Als nächstes möchte ich einen weiteren aus dem Zeitreihendatensatz vorstellen. Von hier aus konzentrieren wir uns auf die verwendete Methode.

Typ: Sowohl Regression als auch Klassifizierung Zusammenfassung: Frühere Avocado-Verkaufsdaten

2.1 Price of Avocados || Pattern Recognition Analysis

Die Visualisierung dieses Kernels ist zu schön und detailliert. Beeindruckt.

Methode verwendet
Smoothing Moving Average
Seasonal Naive Method
Drift Method
ARIMA

2.2 Explore avocados from all sides! Dies ist auch sehr schön visualisiert. Dies ist ein Klassifizierungsproblem der Bio-Avocado oder nicht.

Methode verwendet
logistic regression
RandomForest
KNeighborsClassifier

2.3 Predicting prices of avocados

Benutztes Werkzeug
prophet

2.4 EDA + Lasso Dies ist auch im Klassifizierungsproblem enthalten.

Methode verwendet
DecisionTree
RandomForest
KNeighbours
SVM
AdaBoostClassifier
GradientBoostingClassifier
Xgboost
Lasso
Ridge
Bayesian Ridge
ElasticNet
HuberRegressor

Zusammenfassung

Feature Quantity Engineering und Visualisierung sind wichtig! alt

Verknüpfung

Liste typischer Methoden des maschinellen Lernens

Recommended Posts

Zusammenfassung der Kaggle-Kernel-Methode [Tabelle Zeitreihendaten]
Zusammenfassung der Kaggle-Kernel-Methode [Bild]
[Python] Zeichnen Sie Zeitreihendaten
Über Zeitreihendaten und Übertraining
Differenzierung von Zeitreihendaten (diskret)
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
<Pandas> Umgang mit Zeitreihendaten in der Pivot-Tabelle
Vorhersage von Zeitreihendaten durch Simplex-Projektion
Vorhersage von Zeitreihendaten mit einem neuronalen Netzwerk
Juli, eine bestimmte, M5 ~ Kaggle Anfänger Zeitreihen Datenwettbewerb Fehlergeschichte ~
Erkennung von Zeitreihendatenanomalien für Anfänger
[Kaggle] Ich habe versucht, mithilfe von tsfresh das Feature-Quantity-Engineering mehrdimensionaler Zeitreihendaten durchzuführen
Umgang mit Zeitreihendaten (Implementierung)
OpenFOAM-Zeitreihendaten lesen und Daten einstellen
Holen Sie sich mit Python Zeitreihendaten von k-db.com
Erfassung von Zeitreihendaten (täglich) von Aktienkursen
Glättung von Zeitreihen und Wellenformdaten 3 Methoden (Glättung)
Zeigen Sie Details zu Zeitreihendaten mit Remotte an
Lesen von Zeitreihendaten in PyTorch
Kaggle Zusammenfassung: Outbrain # 2
Zeitreihenzerlegung
[Neueste Methode] Visualisierung von Zeitreihendaten und Extraktion häufiger Muster mithilfe des Pan-Matrix-Profils
Kaggle Zusammenfassung: Outbrain # 1
Implementierung der Clustering-K-Form-Methode für Zeitreihendaten [Unüberwachtes Lernen mit Python Kapitel 13]
Kaggle verwandte Zusammenfassung
Abnormalitätserkennung von Zeitreihendaten durch LSTM (Keras)
[Python] Zusammenfassung der Methode zur Tabellenerstellung mit DataFrame (Pandas)
Vorhersage von Zeitreihendaten durch AutoML (automatisches maschinelles Lernen)
Methode zur Extraktion von Stapeldaten unter Verwendung regulärer Ausdrücke aus Serien