In diesem Artikel werde ich so etwas wie einen Standard für jeden Datentyp im Kaggle-Wettbewerb schreiben. Ich denke auch, dass es gut wäre, wenn es ein Hinweis sein könnte, wenn die Genauigkeit unabhängig von der Konkurrenz nicht herauskommt.
Dieses Mal werden wir auf die folgenden Wettbewerbsdatensätze eingehen. Im Falle eines Wettbewerbs gibt es keinen Kernel, daher werde ich zusammen mit Notebooks arbeiten. Predict Future Sales Avocado Prices
Typ: Rückgabe Zusammenfassung: Prognostizieren Sie die Anzahl der im nächsten Monat verkauften Produkte anhand des Geschäftsnamens, des Produktnamens usw.
1.1Time series Basics : Exploring traditional TS
Analyse durchgeführt | Ergebnis |
---|---|
Visualisierung des Merkmalsmengenhistogramms | Es wurde festgestellt, dass die Kategorie eine Verzerrung aufweist |
Feature-Plot in chronologischer Reihenfolge | Sie können sehen, dass sich die Trends zu jeder Jahreszeit ändern |
ADF,KPSS,Stationarität mit PP(Periodizität)prüfen | Periodizitätの有無を知る |
AR, MA,Probieren Sie das ARMA-Modell usw. aus. |
Darüber hinaus stellen wir in den hierarchischen Zeitreihen Bottom-Up, Top-Down und Middle-Out vor, wie Sie vorgehen müssen.
Für Zeitreihendaten ist es vorerst wichtig, wie die Höhen und Tiefen in Abhängigkeit von der Zeit bis zur Formel reduziert werden können.
Forecasting Hierarchical Time Series using R
Messung von Zeitreihen mit R: AR-, MA-, ARMA-, ARIMA-Modell, Vorhersage
1.2 Feature engineering, xgboost
Analyse durchgeführt | Ergebnis |
---|---|
Funktionen visualisieren | Ich habe die Rauschdaten gefunden und mit anderen numerischen Werten interpoliert |
Feature Quantity Engineering(Der monatliche Durchschnitt wird aus den täglichen Verkäufen berechnet, der Durchschnitt der Verkäufe in einem bestimmten Zeitraum wird als Feature-Betrag hinzugefügt usw.) | Verbesserte Genauigkeit |
Vorausgesagt durch xg boost |
Es war eine Form, in der Informationen als Zeitreihe durch Feature-Quantity-Engineering stetig in die Merkmalsmenge einbezogen und durch xg-Boost vorhergesagt wurden. Diese stetige Funktionsmengenentwicklung ist erstaunlich ~
Ich habe in der Vergangenheit einen Artikel über Feature Quantity Engineering geschrieben. Bitte lesen Sie ihn auch. Memorandum zum Feature Quantity Engineering
1.3 A beginner guide for sale data prediction
Analyse durchgeführt | Ergebnis |
---|---|
Visualisierung von Features | Ich beschloss, das Muster jeder Saison zu entdecken und es auf die Feature-Menge zu reduzieren |
Vorausgesagt von LSTM |
1.4 1st place solution - Part 1 - "Hands on Data"
Analyse durchgeführt | Ergebnis |
---|---|
Feature Quantity Engineering(Gruppengeschäfte, die seit mehreren Monaten nicht mehr verkauft wurden, finden doppelte Geschäftsnamen, extrahieren Kategorien aus Namen usw.) | Verbesserte Genauigkeit |
Wie Sie von hier aus sehen können Datenvisualisierung-> Datentrends anzeigen-> Feature Engineering-> In Modelle eintauchen
Die Routine ist üblich.
2.Avocado Prices Als nächstes möchte ich einen weiteren aus dem Zeitreihendatensatz vorstellen. Von hier aus konzentrieren wir uns auf die verwendete Methode.
Typ: Sowohl Regression als auch Klassifizierung Zusammenfassung: Frühere Avocado-Verkaufsdaten
Die Visualisierung dieses Kernels ist zu schön und detailliert. Beeindruckt.
Methode verwendet |
---|
Smoothing Moving Average |
Seasonal Naive Method |
Drift Method |
ARIMA |
2.2 Explore avocados from all sides! Dies ist auch sehr schön visualisiert. Dies ist ein Klassifizierungsproblem der Bio-Avocado oder nicht.
Methode verwendet |
---|
logistic regression |
RandomForest |
KNeighborsClassifier |
2.3 Predicting prices of avocados
Benutztes Werkzeug |
---|
prophet |
2.4 EDA + Lasso Dies ist auch im Klassifizierungsproblem enthalten.
Methode verwendet |
---|
DecisionTree |
RandomForest |
KNeighbours |
SVM |
AdaBoostClassifier |
GradientBoostingClassifier |
Xgboost |
Lasso |
Ridge |
Bayesian Ridge |
ElasticNet |
HuberRegressor |
Feature Quantity Engineering und Visualisierung sind wichtig!
Liste typischer Methoden des maschinellen Lernens
Recommended Posts