[PYTHON] Unité 5 Ingénierie des fonctionnalités pour la sélection des fonctionnalités d'apprentissage automatique

introduction

Cet article explique les fonctionnalités d'interaction. Cet article est principalement basé sur "Ingénierie de la quantité de fonctionnalités pour l'apprentissage automatique". S'il vous plaît vérifier si vous devenez.

Qu'est-ce que la sélection de fonctionnalités?

Il s'agit d'une méthode pour supprimer les fonctionnalités qui ne sont pas efficaces pour prédire le modèle. Des fonctionnalités inefficaces augmentent le temps de formation du modèle et réduisent sa précision.

Méthode de filtrage

La méthode de filtrage est une méthode de réduction d'entités en regardant uniquement le jeu de données, quel que soit le modèle. Quantifiez dans quelle mesure chaque fonctionnalité peut être utilisée pour la prédiction en fonction de l'index et sélectionnez la fonctionnalité à utiliser réellement. Cet indice comprend le ** coefficient de corrélation de Pearson **, le ** test du chi carré **, ** l'ANOVA **, etc. Plus précisément, vous pouvez supprimer des entités qui ont une corrélation trop élevée entre les entités, ou supprimer des entités qui ont une corrélation trop faible avec la variable objectif. Cependant, puisqu'il s'agit d'une méthode qui ne tient pas du tout compte du modèle, elle peut supprimer les fonctionnalités qui peuvent être efficaces selon le modèle.

Méthode Wrapper

La méthode wrapper prend certaines entités du jeu de données et entraîne le modèle. Ce processus est effectué plusieurs fois pour déterminer la quantité de fonction effective. Étant donné que la quantité de caractéristiques est sélectionnée lors de son incorporation dans le modèle, la quantité de caractéristiques qui peut être efficace dans le modèle n'est pas supprimée à l'avance contrairement à la méthode de filtrage. Cependant, la quantité de calcul devient énorme.

Méthode d'incorporation

La méthode d'incorporation signifie que la sélection de fonction est incorporée lors de l'apprentissage du modèle. Dans l'arbre de décision, le modèle est entraîné tout en calculant l'importance de la quantité de caractéristiques, c'est donc une méthode pour sélectionner celle qui a la grande importance de la quantité de caractéristiques une fois l'apprentissage terminé. La méthode intégrée est de qualité inférieure à la méthode wrapper, mais c'est une méthode bien équilibrée car elle peut réduire le coût de calcul et sélectionner les fonctionnalités les plus efficaces pour le modèle de la méthode de filtrage.

finalement

Je pense publier une vidéo sur l'informatique sur YouTube. S'il vous plaît, abonnez-vous à la chaîne et donnez-nous une note élevée, car cela vous motivera à mettre à jour Youtube et Qiita. YouTube: https://www.youtube.com/channel/UCywlrxt0nEdJGYtDBPW-peg Twitter: https://twitter.com/tatelabo

référence

https://qiita.com/shimopino/items/5fee7504c7acf044a521

Recommended Posts

Unité 5 Ingénierie des fonctionnalités pour la sélection des fonctionnalités d'apprentissage automatique
Ingénierie des fonctionnalités pour l'apprentissage automatique à partir du 4e Google Colaboratory - Fonctionnalités interactives
Ingénierie des fonctionnalités pour l'apprentissage automatique à partir de la partie 3 Échelle collaborative de Google
Score de puissance prédictif pour la sélection des fonctionnalités
Ensembles de données de sélection de fonctionnalités
Ingénierie des fonctionnalités pour l'apprentissage automatique à partir de la partie 2 Conversion de Google Colaboratory-Logistic et conversion Box-Cox
Prétraitement des fonctionnalités pour la modélisation
Note sur «l'ingénierie des fonctionnalités» de HJvanVeen
Sélection des fonctionnalités par sklearn.feature_selection
[Apprentissage automatique] Sélection de fonctionnalités de variables catégorielles à l'aide du test du chi carré