[PYTHON] Einheit 5 Feature Engineering für die Auswahl maschineller Lernfunktionen

Einführung

Dieser Artikel erläutert die Interaktionsfunktionen. Dieser Artikel basiert hauptsächlich auf "Feature Quantity Engineering für maschinelles Lernen". Bitte probieren Sie es aus, wenn Sie werden.

Was ist Funktionsauswahl?

Dies ist eine Methode zum Entfernen von Features, die bei der Vorhersage des Modells nicht effektiv sind. Ineffektive Funktionen verlängern die Trainingszeit des Modells und verringern dessen Genauigkeit.

Filtermethode

Die Filtermethode ist eine Methode zum Reduzieren von Features, indem unabhängig vom Modell nur das Dataset betrachtet wird. Quantifizieren Sie anhand des Index, wie viel jedes Feature für die Vorhersage verwendet werden kann, und wählen Sie das Feature aus, das tatsächlich verwendet werden soll. Dieser Index enthält ** Pearson-Korrelationskoeffizient **, ** Chi-Quadrat-Test **, ** ANOVA ** usw. Insbesondere können Sie Features löschen, deren Korrelation zwischen Features zu hoch ist, oder Features löschen, deren Korrelation mit der Zielvariablen zu niedrig ist. Da es sich jedoch um eine Methode handelt, die das Modell überhaupt nicht berücksichtigt, werden möglicherweise die Funktionen gelöscht, die je nach Modell wirksam sein können.

Wrapper-Methode

Die Wrapper-Methode übernimmt einige Funktionen aus dem Datensatz und trainiert das Modell. Dieser Vorgang wird mehrmals ausgeführt, um die effektive Merkmalsmenge zu bestimmen. Da die Merkmalsmenge ausgewählt wird, während sie tatsächlich in das Modell integriert wird, wird die Merkmalsmenge, die im Modell möglicherweise wirksam ist, im Gegensatz zur Filtermethode nicht im Voraus gelöscht. Der Rechenaufwand wird jedoch enorm.

Eingebaute Methode

Die Einbettungsmethode bedeutet, dass die Merkmalsauswahl beim Training des Modells berücksichtigt wird. Im Entscheidungsbaum wird das Modell trainiert, während die Wichtigkeit der Merkmalsmenge berechnet wird. Daher ist es eine Methode, nach Abschluss des Trainings diejenige mit der hohen Wichtigkeit der Merkmalsmenge auszuwählen. Die integrierte Methode ist qualitativ schlechter als die Wrapper-Methode, aber eine ausgewogene Methode, da sie die Berechnungskosten senken und die Merkmale auswählen kann, die für das Modell der Filtermethode effektiver sind.

Schließlich

Ich denke darüber nach, ein Video über IT auf YouTube zu veröffentlichen. Bitte abonnieren Sie den Kanal und geben Sie uns eine hohe Bewertung, da dies Sie motivieren wird, Youtube und Qiita zu aktualisieren. YouTube: https://www.youtube.com/channel/UCywlrxt0nEdJGYtDBPW-peg Twitter: https://twitter.com/tatelabo

Referenz

https://qiita.com/shimopino/items/5fee7504c7acf044a521