[PYTHON] [Memo] Unterschied zwischen test_split und Cross-Verification-Methode bei der Überprüfung der allgemeinen Leistung beim Deep Learning
Ich bin neu in Python / Deep Learning.
Informationen zur Verifizierungsmethode der Generalisierungsleistung, die bei der Implementierung des neuronalen Netzwerks untersucht wurde
Hinterlassen Sie eine Notiz wie folgt.
ich habe mich gewundert
- Es gibt eine Methode zur Überprüfung der Generalisierungsleistung, die als k-fache Kreuzvalidierung / kCV bezeichnet wird (Referenz 1).
- Eine Methode zum Teilen der Trainingsdaten in k Teile, Verwenden von k-1 Teilen zum Lernen und Verwenden eines Teils zur Leistungsbewertung, wobei das Lernen k-mal wiederholt wird.
- Ich wusste ursprünglich, dass sklearn.modelselection.traintest_split (TTS) verwendet werden kann, um die vorliegenden Daten in Trainingsdaten und Testdaten zu unterteilen und die Generalisierungsleistung zu überprüfen.
――A. Ist es grundsätzlich in Ordnung zu erkennen, dass TTS mehrmals als kCV wiederholt wird?
―― b. Ist es in Ordnung zu erkennen, dass kCV die Verallgemeinerung des Modells genauer bewerten kann als TTS?
Antworten
Ich denke schon. Darüber hinaus können zum Zeitpunkt von kCV ausnahmslos alle k Unterteilungen zur Verifizierung verwendet werden.
--b. Das scheint der Fall zu sein.
- Wenn TTS nur einmal verwendet wird, können die zur Verifizierung verwendeten Daten niemals als Trainingsdaten verwendet werden. Daher besteht die Möglichkeit, dass je nach Auswahlmethode der Verifizierungsdaten unnötige Verzerrungen im Training auftreten. Mit kCV können Sie es überwinden (Referenz 2).
- KCV sagt auch: "Wenn die Daten in jeder der k Abteilungen eine Verzerrung aufweisen, wird das Lernergebnis verzerrt (die Abteilung, die nur Hundedaten enthält, und die Abteilung, die nur Katzendaten enthält). (Geteilt usw.) “Auf Nachteile wurde hingewiesen. Gegenmaßnahmen dagegen sind die Überprüfung der geschichteten k-Teilungskreuzung (Stratified kCV) (Referenz 1).
Zusammenfassung
Es ist ganz natürlich, aber ich werde es als Memo belassen.
Referenz