[PYTHON] Über Zeitreihendaten und Übertraining

Wie man LGBM-Überlernen verhindert, ist heutzutage eines meiner heißen Themen.

Mir ist aufgefallen, wie Zugdaten und gültige Daten von Zeitreihendaten getrennt werden.

Bisher dachte ich, dass die zufällige Aufteilung auch für Zeitreihendaten besser wäre. Einfach ausgedrückt, wenn Sie es durch Festlegen eines bestimmten Datums und einer bestimmten Uhrzeit als Schwellenwert teilen, werden die Zugdaten für Frühling, Sommer und Herbst ohne Informationen zum Winter gelernt, sodass es sich möglicherweise um ein unvollständiges Modell handelt.

Es stellte sich jedoch heraus, dass es ein Problem mit der zufälligen Aufteilung gab. Dies hängt von der Granularität der Datums- und Uhrzeitangabe ab. Beispielsweise enthalten die Zugdaten die Daten der Minute unmittelbar vor den gültigen Daten, sodass das Überlernen äußerst einfach ist.

Meine derzeitige Best Practice besteht darin, das Jahr in vier Teile zu unterteilen: Frühling, Sommer, Herbst und Winter, und ein Modell mit vier Mustern zu erstellen, je nachdem, welches gültig festgelegt ist. Nehmen Sie den Durchschnitt der vorhergesagten Werte, die von den vier Modellen erzeugt wurden.

====

Ich habe vor ungefähr zwei Wochen ein Memo geschrieben, Der folgende Artikel hat genau die gleiche Idee wie ich dachte, also teile sie! !!

http://tmitani-tky.hatenablog.com/entry/2018/12/19/001304

Es scheint, dass Scikit-Learn auch etwas zu bestätigen hat, wie ich hoffe

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html

Recommended Posts

Über Zeitreihendaten und Übertraining
OpenFOAM-Zeitreihendaten lesen und Daten einstellen
[Python] Zeichnen Sie Zeitreihendaten
Informationen zur Installation der Serien Pwntools und Python2
Python: Zeitreihenanalyse: Vorverarbeitung von Zeitreihendaten
Zeichnen Sie Zeitreihendaten in Python mit Pandas und Matplotlib
Eine Geschichte über das Clustering von Zeitreihendaten des Austauschs
Differenzierung von Zeitreihendaten (diskret)
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Über _ und __
Vergleich der Vorhersage von Zeitreihendaten zwischen dem SARIMA-Modell und dem Prophet-Modell
Beim Zeichnen von Zeitreihendaten und Abrufen von matplotlib OverflowError
Vorhersage von Zeitreihendaten durch Simplex-Projektion
Vorhersage von Zeitreihendaten mit einem neuronalen Netzwerk
Erkennung von Zeitreihendatenanomalien für Anfänger
Umgang mit Zeitreihendaten (Implementierung)
Zeitreihenanalyse Nr. 6 Gefälschte Rückkehr und republikanischer Teil
Zeitreihenzerlegung
Zusammenfassung der Kaggle-Kernel-Methode [Tabelle Zeitreihendaten]
Erfassung von Zeitreihendaten (täglich) von Aktienkursen
Zeigen Sie Details zu Zeitreihendaten mit Remotte an
Lesen von Zeitreihendaten in PyTorch
Formatieren und Anzeigen von Zeitreihendaten mit verschiedenen Maßstäben und Einheiten mit Python oder Matplotlib
Python: Zeitreihenanalyse
Maschinelles Lernen Über Overlearning
Merkmalsmenge, die aus Zeitreihendaten extrahiert werden kann
Visualisieren Sie Daten und erfassen Sie gleichzeitig die Korrelation
[Neueste Methode] Visualisierung von Zeitreihendaten und Extraktion häufiger Muster mithilfe des Pan-Matrix-Profils
Python-Zeitreihenfrage
RNN_LSTM1 Zeitreihenanalyse
Zeitreihenanalyse 1 Grundlagen
Vorhersage von Zeitreihendaten durch AutoML (automatisches maschinelles Lernen)
Über Kreuzvalidierung und F-Wert
TOPIX-Zeitreihen anzeigen
Zeitreihendiagramm / Matplotlib
Es ist Zeit, ernsthaft über die Definition und die Fähigkeiten von Datenwissenschaftlern nachzudenken
"Zeitreihenanalyse von Wirtschafts- und Finanzdaten messen" Das Problem am Ende des Kapitels mit Python lösen
Ich wollte mich um die Ausführungszeit und die Speichernutzung kümmern
Dies und das über pd.DataFrame
Linux (Über Dateien und Verzeichnisse)
Python 2-Serie und 3-Serie (Anaconda Edition)
Informationen zu Python-Objekten und -Klassen
Datenverarbeitung 3 (Entwicklung) Informationen zum Datenformat
Informationen zu Python-Variablen und -Objekten
Informationen zu LINUX-Dateien und -Prozessen
Über Raid Group und LUN
Informationen zur Funktion fork () und zur Funktion execve ()
Über Djangos Dekonstruktion und Dekonstruierbarkeit
Datum und Uhrzeit ⇔ Zeichenkette
Über Python, len () und randint ()
Informationen zu Python-Datums- und Zeitzone
Über Sharpe Ratio und Sortino Ratio
Zeitreihenanalyse Teil 4 VAR
Zeitreihenanalyse Teil 3 Prognose
Punkt- und Figurendatenmodellierung
Über Python und reguläre Ausdrücke
Zeitreihenanalyse Teil 1 Autokorrelation