Wie man LGBM-Überlernen verhindert, ist heutzutage eines meiner heißen Themen.
Mir ist aufgefallen, wie Zugdaten und gültige Daten von Zeitreihendaten getrennt werden.
Bisher dachte ich, dass die zufällige Aufteilung auch für Zeitreihendaten besser wäre. Einfach ausgedrückt, wenn Sie es durch Festlegen eines bestimmten Datums und einer bestimmten Uhrzeit als Schwellenwert teilen, werden die Zugdaten für Frühling, Sommer und Herbst ohne Informationen zum Winter gelernt, sodass es sich möglicherweise um ein unvollständiges Modell handelt.
Es stellte sich jedoch heraus, dass es ein Problem mit der zufälligen Aufteilung gab. Dies hängt von der Granularität der Datums- und Uhrzeitangabe ab. Beispielsweise enthalten die Zugdaten die Daten der Minute unmittelbar vor den gültigen Daten, sodass das Überlernen äußerst einfach ist.
Meine derzeitige Best Practice besteht darin, das Jahr in vier Teile zu unterteilen: Frühling, Sommer, Herbst und Winter, und ein Modell mit vier Mustern zu erstellen, je nachdem, welches gültig festgelegt ist. Nehmen Sie den Durchschnitt der vorhergesagten Werte, die von den vier Modellen erzeugt wurden.
====
Ich habe vor ungefähr zwei Wochen ein Memo geschrieben, Der folgende Artikel hat genau die gleiche Idee wie ich dachte, also teile sie! !!
http://tmitani-tky.hatenablog.com/entry/2018/12/19/001304
Es scheint, dass Scikit-Learn auch etwas zu bestätigen hat, wie ich hoffe
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html
Recommended Posts