[PYTHON] A propos des arguments de la fonction setup de PyCaret

Arguments de la fonction de configuration Pycaret

Officiel PyCaret: Accueil --PyCaret Guide PyCaret: Guide PyCaret --PyCaret PyCaret Github:pycaret/pycaret: An open source, low-code machine learning library in Python

Classification de classification PyCaret2.0

Paramètres La description Détails
data {array-like, sparse matrix} Shape (n_samples, n_features)Où n_échantillons est le nombre d'échantillons, n_fonctionnalités est le nombre de fonctionnalités.
target string Le nom de la colonne à transmettre sous forme de chaîne de caractères. La variable cible peut être binaire ou multiclasse. Pour les cibles multiclasses, toutes les estimations sont incluses dans le classificateur OneVs Rest.
train_size float, default = 0.7 La taille de l'ensemble d'entraînement. Par défaut, 70 de données%Est utilisé pour la formation et la vérification. Testez le reste des données/Utilisé pour les ensembles de retenue.
sampling bool, default = True La taille de l'échantillon est de 25,Au-delà de 000 échantillons, pycaret construit des estimateurs de base de différentes tailles d'échantillon à partir de l'ensemble de données d'origine. Il renvoie des graphiques de performances des valeurs AUC, Précision, Rappel, Précision, Kappa et F1 à différents niveaux d'échantillonnage pour aider à déterminer la taille d'échantillon appropriée pour la modélisation. Vous devez ensuite saisir la taille d'échantillon souhaitée pour la formation et la validation dans l'environnement Picaret. Échantillon d'entrée_finaliser si la taille est inférieure à 1_model()Ensemble de données restant (1) uniquement lorsqu'il est appelé-Sample) est utilisé pour ajuster le modèle.
sample_estimator object, default = None Si aucun, la régression logistique est utilisée par défaut.
categorical_features string, default = None Catégoriel si le type de données inféré est incorrect_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Utilisez ce paramètre pour catégoriser si le type de est déduit comme numérique au lieu d'algorithmique_features = ['column1']Vous pouvez remplacer ce type en passant.
categorical_imputation string, default = 'constant' Si une valeur manquante est trouvée dans la quantité de fonction de catégorie, un certain "non" est trouvé._Il est saisi avec la valeur «disponible». Une autre option disponible est'mode'Dans, entrez la valeur manquante en utilisant la valeur la plus fréquente dans l'ensemble de données d'entraînement.
ordinal_features dictionary, default = None Ordinal si les données contiennent des caractéristiques hiérarchiques_Vous devez effectuer un encodage différent avec le paramètre features. Les données sont'low'、'medium'、'high'A une variable catégorielle avec la valeur de, faible< medium <ordinal s'il est connu pour être élevé_features = { 'column_name' : ['low', 'medium', 'high'] }Peut être passé comme. L'ordre de la liste doit être du plus bas au plus élevé.
high_cardinality_features string, default = None Si une fonction avec une cardinalité élevée est incluse, elle peut être compressée à un niveau plus petit en la passant sous forme de liste de noms de colonnes avec une cardinalité élevée.
high_cardinality_method string, default = 'frequency' La fréquence'frequency'Lorsqu'elle est définie sur, la valeur d'origine de la quantité d'entités est remplacée par la distribution de fréquence et quantifiée. Une autre méthode disponible est le «clustering», qui regroupe les attributs statistiques des données et remplace la valeur d'origine de l'entité par l'étiquette de cluster.
numeric_features string, default = None Si le type de données déduit est incorrect, numérique_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Si le type de est déduit comme une catégorie plutôt que comme un nombre, utilisez ce paramètre pour_features = ['column1']Il peut être écrasé en passant.
numeric_imputation string, default = 'mean' Si une valeur manquante est trouvée dans la quantité d'objets numériques, la valeur moyenne de la quantité d'objets est utilisée pour la saisie. Une autre option disponible est'median'Dans, entrez la valeur à l'aide de la valeur médiane de l'ensemble de données d'entraînement.
date_features string, default = None Si les données ont une colonne DateTime qui n'est pas détectée automatiquement lors de la configuration, date_features = 'date_column_name'Vous pouvez utiliser ce paramètre en passant. Il peut fonctionner avec plusieurs colonnes de date. La colonne de date n'est pas utilisée dans la modélisation. Au lieu de cela, l'extraction d'entités est effectuée et la colonne de date est supprimée de l'ensemble de données. Si la colonne de date contient un horodatage, les fonctionnalités liées à l'heure sont également extraites.
ignore_features string, default = None Param ignore s'il y a des fonctionnalités qui doivent être ignorées pour la modélisation_Vous pouvez le transmettre aux fonctionnalités. Les colonnes ID et DateTime lorsqu'elles sont déduites sont automatiquement définies pour être ignorées à des fins de modélisation.
normalize bool, default = False S'il est défini sur True, le paramètre normalisé_L'espace des fonctionnalités est transformé à l'aide de la méthode. En général, les algorithmes linéaires fonctionnent mieux avec des données normalisées, mais les résultats peuvent varier.
normalize_method string, default = 'zscore' Définit la méthode utilisée pour la normalisation. Par défaut, la méthode de normalisation est'zscore'Est réglé sur. Le zscore standard est z= (x - u) /Calculé comme s.
minmax 0 -Mettez à l'échelle et convertissez chaque entité individuellement afin qu'elle soit dans la plage de 1.
maxabs La valeur absolue maximale de chaque fonction est 1.Chaque entité est mise à l'échelle et convertie individuellement pour qu'elle devienne 0. C'est un transfert de données/Puisqu'il ne centre pas, il ne détruit pas la sparéité.
robust Chaque entité est mise à l'échelle et convertie en fonction de l'intervalle entre les tuiles de quark. Les scalers robustes donnent souvent de meilleurs résultats lorsque l'ensemble de données contient des valeurs aberrantes.
transformation bool, default = False Lorsqu'il est défini sur True, la conversion de puissance est appliquée de sorte que les données semblent plus gaussiennes régulières. Ceci est utile pour modéliser les problèmes liés à l'hétérogénéité et à d'autres situations où la normalité est souhaitée. Les paramètres optimaux pour stabiliser la dispersion et minimiser la déformation sont estimés par la méthode la plus probable.
transformation_method string, default = 'yeo-johnson' Définit la méthode de conversion. Par défaut, la méthode de conversion est'yeo-johnson'Est réglé sur. Comme une autre option'quantile'Il y a une conversion. Les deux transformations transforment l'ensemble d'entités pour suivre une distribution gaussienne ou normale. Notez que la transformation de division est non linéaire et peut fausser la corrélation linéaire entre les variables mesurées sur la même échelle.
handle_unknown_categorical bool, default = True Nouveau si défini sur True/Le niveau de catégorie inconnu des données invisibles est remplacé par le niveau le plus fréquent ou le moins fréquent formé dans les données d'entraînement. Cette méthode est inconnue_categorical_Défini dans le paramètre de méthode.
unknown_categorical_method string, default = 'least_frequent' Méthode utilisée pour remplacer un niveau catégoriel inconnu de données invisibles. La méthode est'least_frequent'Ou'most_frequent'Peut être défini sur.
pca bool, default = False S'il est défini sur True, pca_La réduction de dimension est appliquée pour projeter les données dans un espace dimensionnel inférieur à l'aide de la méthode définie par le paramètre de méthode. Dans l'apprentissage supervisé, pca est généralement exécuté lorsqu'il s'agit d'espaces de fonctionnalités élevés ou lorsque la mémoire est contrainte. Notez que tous les ensembles de données ne peuvent pas être décomposés efficacement à l'aide des techniques de l'ACP linéaire, et l'application de l'ACP peut entraîner une perte d'informations. Par conséquent, différents PCA pour évaluer son impact_Nous vous recommandons d'effectuer plusieurs expériences à l'aide de méthodes.
pca_method string, default = 'linear' La méthode linéaire utilise la décomposition de singularité pour effectuer une réduction de dimension linéaire. Les autres options disponibles sont:
kernel Réduction de dimension à l'aide du noyau RVF.
incremental Si l'ensemble de données que vous souhaitez décomposer est trop volumineux pour tenir en mémoire'linear'Remplacez pca.
pca_components int/float, default = 0.99 pca_Si les composants sont flottants, ils sont traités comme un pourcentage cible pour conserver les informations. PCA_Si les composants sont des entiers, ils sont traités comme le nombre d'entités à conserver. PCA_Les composants doivent être strictement inférieurs aux caractéristiques d'origine de l'ensemble de données.
ignore_low_variance bool, default = False Lorsqu'il est défini sur True, toutes les entités de catégorie avec des écarts non statistiquement significatifs sont supprimées de l'ensemble de données. La variance est calculée en utilisant le rapport des valeurs uniques au nombre d'échantillons et le rapport des valeurs les plus courantes à la fréquence de la deuxième valeur la plus élevée.
combine_rare_levels bool, default = False Si défini sur True, param rare_level_Tous les niveaux de caractéristiques de catégorie inférieurs au seuil défini par seuil sont combinés en un seul niveau. Il doit y avoir au moins deux niveaux sous le seuil pour que cela prenne effet. rare_level_seuil représente la distribution en centile de la fréquence de niveau. En général, cette méthode est appliquée pour limiter les matrices éparses en raison du grand nombre de niveaux dans les caractéristiques catégorielles.
rare_level_threshold float, default = 0.1 Une distribution centile qui combine des catégories rares. combiner_rare_Activé uniquement si les niveaux sont définis sur True.
bin_numeric_features list, default = None Lorsqu'une liste d'entités numériques est transmise, elles sont converties en entités catégorielles à l'aide de KMeans. Le nombre de clusters'sturges'Il est décidé sur la base de la loi. Ceci n'est meilleur que pour les données gaussiennes et sous-estime le nombre de cases pour les grands ensembles de données non gaussiens.
remove_outliers bool, default = False Lorsqu'elle est définie sur True, les valeurs aberrantes sont supprimées des données d'apprentissage à l'aide de la réduction de dimension linéaire PCA à l'aide de techniques de décomposition de singularité.
outliers_threshold float, default = 0.05 Pourcentage de valeurs aberrantes dans l'ensemble de données/Le pourcentage est la valeur aberrante du paramètre_Il peut être défini à l'aide d'un seuil. Par défaut, 0.05 est utilisé. C'est 0 pour chaque côté de la queue de la distribution.Cela signifie que 025 est supprimé des données d'entraînement.
remove_multicollinearity bool, default = False Lorsqu'il est défini sur True, multicollinéarité_Les variables qui ont une corrélation plus élevée que le seuil défini par le paramètre de seuil sont supprimées. Si les deux entités ont une corrélation élevée l'une avec l'autre, l'entité avec la corrélation la plus faible avec la variable cible est supprimée.
multicollinearity_threshold float, default = 0.9 Le seuil utilisé pour supprimer les entités corrélées. supprimer supprimer_Activé uniquement si la multicolinéarité est définie sur True.
remove_perfect_collinearity bool, default = False Lorsqu'il est réglé sur True, colinéarité parfaite(corrélation=Quantité de caractéristique de 1)Est supprimée de l'ensemble de données et les deux entités sont 100%corrélationしている場合、そのうちの1つがランダムにデータセットから削除されます。
create_clusters bool, default = False Lorsqu'il est défini sur True, il crée des fonctionnalités supplémentaires où chaque instance est affectée à un cluster. Le nombre de clusters est Calinski-Déterminé à l'aide d'une combinaison de critères Harabasz et Silhouette.
cluster_iter int, default = 20 Le nombre d'itérations utilisées pour créer le cluster. Chaque itération représente la taille du cluster. créer créer_Uniquement valide si le paramètre clusters est défini sur True.
polynomial_features bool, default = False Lorsqu'il est défini sur True, le polynôme existe dans les entités numériques du jeu de données._Une nouvelle fonction est créée sur la base de la combinaison de tous les polynômes jusqu'au degré défini par le paramètre de degré.
polynomial_degree int, default = 2 L'ordre des caractéristiques polymorphes. Par exemple, l'échantillon d'entrée est bidimensionnel[a, b]Sous la forme de=Les caractéristiques polymorphes de 2 sont les suivantes. 1, a, b, a^2, ab, b^2]Il devient.
trigonometry_features bool, default = False Si défini sur True, polynôme présent dans les entités numériques du jeu de données_Une nouvelle quantité de caractéristiques est créée en fonction de la combinaison de toutes les fonctions triangulaires jusqu'à l'ordre défini par le paramètre de degré.
polynomial_threshold float, default = 0.1 L'ensemble de données contient des entités polymorphes et triangulaires qui se situent dans le seuil de centile défini de l'importance de l'entité en fonction d'une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire. Les quantités d'objets restantes sont supprimées avant que le traitement ne soit effectué.
group_features list or list of list, default = None Grouper s'il contient des entités qui ont des entités liées à l'ensemble de données_Le paramètre features peut être utilisé pour l'extraction de caractéristiques statistiques. Par exemple, les entités numériques dans lesquelles les ensembles de données sont liés les uns aux autres ('Col1', 'Col2', 'Col3')Si vous avez un groupe_En passant une liste contenant les noms de colonnes sous les fonctionnalités, vous pouvez extraire des informations statistiques telles que la moyenne, la médiane, le mode et l'écart type.
group_names list, default = None group_Lorsque les fonctionnalités sont passées, regroupez sous forme de liste contenant des chaînes_Vous pouvez transmettre le nom du groupe dans le paramètre names. groupe_La longueur de la liste des noms est group_Doit être égal à la longueur des entités. Si les longueurs ne correspondent pas ou si le nom n'est pas transmis, groupez_1, group_Les nouvelles fonctionnalités sont nommées dans l'ordre, par exemple 2.
feature_selection bool, default = False Lorsqu'il est défini sur True, un sous-ensemble d'entités est sélectionné à l'aide d'une combinaison de différentes techniques d'importance de tri, telles que la forêt aléatoire, Adaboost et la corrélation linéaire avec les variables cibles. La taille du sous-ensemble est caractéristique_selection_Cela dépend de param. Ceci est couramment utilisé pour contraindre l'espace des fonctionnalités afin d'améliorer l'efficacité de la modélisation. polynôme_caractéristiques et fonctionnalités_Si vous utilisez l'interaction, fonctionnalité_selection_Il est fortement recommandé de définir le paramètre de seuil avec une valeur inférieure.
feature_selection_threshold float, default = 0.8 Seuil utilisé pour la sélection d'entités (y compris les entités polymorphes nouvellement créées). Plus la valeur est élevée, plus l'espace des fonctionnalités est grand. Caractéristiques de différentes valeurs, en particulier lorsque des caractéristiques polymorphes et des interactions caractéristique à caractéristique sont utilisées_selection_Il est recommandé de faire plusieurs essais en utilisant le seuil. La définition d'une valeur très faible peut être efficace, mais elle peut entraîner un sous-ajustement.
feature_interaction bool, default = False Lorsqu'il est défini sur True, interagit (a) avec toutes les variables numériques de l'ensemble de données, y compris les entités polynomiales et trigonométriques (si créées).*b) Créez une nouvelle fonctionnalité en faisant. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu sur les jeux de données avec de grands espaces d'entités.
feature_ratio bool, default = False Lorsqu'il est défini sur True, le rapport de toutes les variables numériques de l'ensemble de données (un/b) Calculez pour créer une nouvelle fonction. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu pour les jeux de données avec de grands espaces d'entités.
interaction_threshold bool, default = 0.01 polynomial_Semblable au seuil, il est utilisé pour compresser une nouvelle matrice creuse d'entités par interaction. Les entités dont l'importance basée sur une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire se situe dans les percentiles de seuil définis sont stockées dans l'ensemble de données. Les fonctionnalités restantes sont supprimées avant le traitement ultérieur.
fix_imbalance bool, default = False Si l'ensemble de données a une distribution inégale des classes cibles, corrigez_Il peut être modifié à l'aide du paramètre de déséquilibre. Lorsqu'il est défini sur True, SMOTE par défaut(Synthetic Minority Over-sampling Technique)S'applique pour créer un point de données composite pour la classe minoritaire.
fix_imbalance_method obj, default = None fix_Définissez le déséquilibre sur Vrai et corrigez_imbalance_Si la méthode est définie sur Aucun, elle suréchantillonnera par défaut les classes minoritaires lors de la validation croisée.'smote'Est appliqué. Ce paramètre est'fit_resample'Prend en charge les méthodes'imblearn'Tout module peut être accepté.
data_split_shuffle bool, default = True Définissez sur False pour éviter que les lignes ne soient mélangées lors du fractionnement des données.
folds_shuffle bool, default = False Définissez sur False pour éviter que les lignes ne soient mélangées lors de l'utilisation de la validation croisée.
n_jobs int, default = -1 Spécifie le nombre de travaux à exécuter en parallèle(Pour les fonctions prenant en charge le traitement parallèle)-1 signifie utiliser tous les processeurs. Pour exécuter toutes les fonctions sur un seul processeur, n_Définissez les travaux sur Aucun.
html bool, default = True Définissez sur False pour désactiver l'affichage d'exécution du moniteur. Si vous utilisez un environnement qui ne prend pas en charge HTML, vous devez le définir sur False.
session_id int, default = None Si aucun, une graine aléatoire sera générée et renvoyée à la grille d'informations. Toutes les fonctions alors utilisées pendant l'expérience se verront alors attribuer un numéro unique en guise de graine. Cela peut être utilisé pour la reproductibilité après toute l'expérience.
log_experiment bool, default = False Lorsqu'il est défini sur True, toutes les métriques et paramètres sont enregistrés sur le serveur MLFlow.
experiment_name str, default = None Le nom de l'expérience à consigner. Si défini sur Aucun, par défaut'clf'Est utilisé comme alias pour le nom de l'expérience.
log_plots bool, default = False Lorsqu'il est défini sur True, enregistre un tracé particulier sous forme de fichier png dans MLflow. La valeur par défaut est False.
log_profile bool, default = False S'il est défini sur True, le profil de données sera également enregistré dans MLflow en tant que fichier html. La valeur par défaut est False.
log_data bool, default = False Lorsqu'il est défini sur True, les données d'entraînement et de test seront enregistrées en tant que csv.
silent bool, default = False S'il est défini sur True, aucune confirmation du type de données n'est requise. Tout le prétraitement est effectué en supposant un type de données automatiquement déduit. L'utilisation directe en dehors des pipelines établis n'est pas recommandée.
verbose Boolean, default = True Si verbose est défini sur False, la grille d'informations ne sera pas imprimée.
profile bool, default = False Lorsqu'il est défini sur true, le profil de données pour l'analyse exploratoire des données s'affiche dans un rapport HTML interactif.

Régression de régression PyCaret2.0

Paramètres La description Détails
data {array-like, sparse matrix} Shape (n_samples, n_features)Où n_échantillons est le nombre d'échantillons, n_fonctionnalités est le nombre de fonctionnalités.
target string Le nom de la colonne à transmettre sous forme de chaîne de caractères.
train_size float, default = 0.7 La taille de l'ensemble d'entraînement. Par défaut, 70 de données%Est utilisé pour la formation et la vérification. Testez le reste des données/Utilisé pour les ensembles de retenue.
sampling bool, default = True La taille de l'échantillon est de 25,Au-delà de 000 échantillons, pycaret construit des estimateurs de base de différentes tailles d'échantillon à partir de l'ensemble de données d'origine. Cela renvoie des graphiques de performances des valeurs R2 à différents niveaux d'échantillonnage pour aider à déterminer une taille d'échantillon appropriée pour la modélisation. Ensuite, vous devez entrer la taille d'échantillon souhaitée pour la formation et la validation dans l'environnement pycaret. Échantillon d'entrée_finaliser si la taille est inférieure à 1_model()Ensemble de données restant (1) uniquement lorsqu'il est appelé-sample) est utilisé pour ajuster le modèle.
sample_estimator object, default = None Sinon, la régression linéaire est utilisée par défaut.
categorical_features string, default = None Catégoriel si le type de données inféré est incorrect_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Utilisez ce paramètre pour catégoriser si le type de est déduit comme numérique au lieu d'algorithmique_features = ['column1']Vous pouvez remplacer ce type en passant.
categorical_imputation string, default = 'constant' Si une valeur manquante est trouvée dans la quantité de fonction de catégorie, un certain «non» est trouvé._Il est saisi avec la valeur «disponible». Une autre option disponible est'mode'Dans, entrez la valeur manquante en utilisant la valeur la plus fréquente dans l'ensemble de données d'entraînement.
ordinal_features dictionary, default = None Ordinal si les données contiennent des caractéristiques hiérarchiques_Vous devez effectuer un encodage différent avec le paramètre features. Les données sont'low'、'medium'、'high'A une variable catégorielle avec la valeur de, faible< medium <ordinal s'il est connu pour être élevé_features = { 'column_name' : ['low', 'medium', 'high'] }Peut être passé comme. L'ordre de la liste doit être du plus bas au plus élevé.
high_cardinality_features string, default = None Si vos données contiennent des fonctionnalités à cardinalité élevée, vous pouvez les réduire à un niveau inférieur en les transmettant sous forme de liste de noms de colonnes à cardinalité élevée. La compression des fonctionnalités est extrêmement élevée_cardinality_Utilisez la méthode définie dans method.
high_cardinality_method string, default = 'frequency' La fréquence'frequency'Lorsqu'elle est définie sur, la valeur d'origine de la quantité d'entités est remplacée par la distribution de fréquence et quantifiée. Une autre méthode disponible est le «clustering», qui regroupe les attributs statistiques des données et remplace la valeur d'origine de l'entité par l'étiquette de cluster.
numeric_features string, default = None Si le type de données déduit est incorrect, numérique_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Si le type de est déduit comme une catégorie plutôt que comme un nombre, utilisez ce paramètre pour_features = ['column1']Il peut être écrasé en passant.
numeric_imputation string, default = 'mean' Si une valeur manquante est trouvée dans la quantité d'objets numériques, la valeur moyenne de la quantité d'objets est utilisée pour la saisie. Une autre option disponible est'median'Dans, entrez la valeur à l'aide de la valeur médiane de l'ensemble de données d'entraînement.
date_features string, default = None Si les données ont une colonne DateTime qui n'est pas détectée automatiquement lors de la configuration, date_features = 'date_column_name'Vous pouvez utiliser ce paramètre en passant. Il peut fonctionner avec plusieurs colonnes de date. La colonne de date n'est pas utilisée dans la modélisation. Au lieu de cela, l'extraction d'entités est effectuée et la colonne de date est supprimée de l'ensemble de données. Si la colonne de date contient un horodatage, les fonctionnalités liées à l'heure sont également extraites.
ignore_features string, default = None Param ignore s'il y a des fonctionnalités qui doivent être ignorées pour la modélisation_Vous pouvez le transmettre aux fonctionnalités. Les colonnes ID et DateTime lorsqu'elles sont déduites sont automatiquement définies pour être ignorées à des fins de modélisation.
normalize bool, default = False S'il est défini sur True, le paramètre normalisé_L'espace des fonctionnalités est transformé à l'aide de la méthode. En général, les algorithmes linéaires fonctionnent mieux avec des données normalisées, mais les résultats peuvent varier.
normalize_method string, default = 'zscore' Définit la méthode utilisée pour la normalisation. Par défaut, la méthode de normalisation est'zscore'Est réglé sur. Le zscore standard est z= (x - u) /Calculé comme s.
minmax minmax' : 0 -Mettez à l'échelle et convertissez chaque entité individuellement afin qu'elle soit dans la plage de 1.
maxabs maxabs':La valeur absolue maximale de chaque fonction est 1.Chaque entité est mise à l'échelle et convertie individuellement pour qu'elle devienne 0. C'est un transfert de données/Puisqu'il ne centre pas, il ne détruit pas la sparéité.
robust robust':Chaque entité est mise à l'échelle et convertie en fonction de l'intervalle entre les tuiles de quark. Les scalers robustes donnent souvent de meilleurs résultats lorsque l'ensemble de données contient des valeurs aberrantes.
transformation bool, default = False Définir sur True pour rendre les données plus normales/La conversion du multiplicateur est appliquée pour la rendre gaussienne. Ceci est utile pour modéliser les problèmes liés à l'hétérogénéité et à d'autres situations où la normalité est souhaitée. Les paramètres optimaux pour stabiliser la dispersion et minimiser la déformation sont estimés par la méthode la plus probable.
transformation_method string, default = 'yeo-johnson' Définit la méthode de conversion. Par défaut, la méthode de conversion est'yeo-johnson'Est réglé sur. Comme une autre option'quantile'Il y a une conversion. Les deux transformations transforment l'ensemble d'entités pour suivre une distribution gaussienne ou normale. Notez que la transformation de division est non linéaire et peut fausser la corrélation linéaire entre les variables mesurées sur la même échelle.
handle_unknown_categorical bool, default = True Nouveau si défini sur True/Le niveau de catégorie inconnu des données non vues est remplacé par le niveau le plus fréquent ou le moins fréquent formé dans les données d'entraînement. Cette méthode est inconnue_categorical_Défini dans le paramètre de méthode.
unknown_categorical_method string, default = 'least_frequent' Méthode utilisée pour remplacer un niveau catégoriel inconnu de données invisibles. Dans la méthode'least_frequent'Ou'most_frequent'Peut être mis en place.
pca bool, default = False S'il est défini sur True, pca_La réduction de dimension est appliquée pour projeter les données dans un espace dimensionnel inférieur à l'aide de la méthode définie par le paramètre de méthode. Dans l'apprentissage supervisé, pca est généralement exécuté lorsqu'il s'agit d'espaces de fonctionnalités élevés ou lorsque la mémoire est contrainte. Notez que tous les ensembles de données ne peuvent pas être décomposés efficacement à l'aide des techniques de l'ACP linéaire, et l'application de l'ACP peut entraîner une perte d'informations. Par conséquent, différents PCA pour évaluer son impact_Nous vous recommandons d'effectuer plusieurs expériences à l'aide de méthodes.
pca_method string, default = 'linear' La méthode linéaire utilise la décomposition de singularité pour effectuer une réduction de dimension linéaire. Les autres options disponibles sont:
kernel Réduction de dimension à l'aide du noyau RVF.
incremental Si l'ensemble de données que vous souhaitez décomposer est trop volumineux pour tenir en mémoire'linear'Remplacez pca.
pca_components int/float, default = 0.99 pca_Si les composants sont flottants, ils sont traités comme un pourcentage cible pour la conservation des informations. PCA_Si les composants sont des entiers, ils sont traités comme le nombre d'entités à conserver. PCA_Les composants doivent être strictement inférieurs aux caractéristiques d'origine de l'ensemble de données.
ignore_low_variance bool, default = False Lorsqu'il est défini sur True, toutes les entités de catégorie avec des écarts non statistiquement significatifs sont supprimées de l'ensemble de données. La variance est calculée en utilisant le rapport des valeurs uniques au nombre d'échantillons et le rapport des valeurs les plus courantes à la fréquence de la deuxième valeur la plus élevée.
combine_rare_levels bool, default = False Si défini sur True, param rare_level_Tous les niveaux de caractéristiques de catégorie en dessous du seuil défini par seuil sont combinés en un seul niveau. Il doit y avoir au moins deux niveaux en dessous du seuil pour que cela prenne effet. rare_level_seuil représente la distribution en centile de la fréquence de niveau. En général, cette méthode est appliquée pour limiter les matrices éparses en raison du grand nombre de niveaux dans les caractéristiques catégorielles.
rare_level_threshold float, default = 0.1 Une distribution centile qui combine des catégories rares. combiner_rare_Activé uniquement si les niveaux sont définis sur True.
bin_numeric_features list, default = None Lorsqu'une liste d'entités numériques est transmise, elles sont converties en entités catégorielles à l'aide de KMeans. Le nombre de clusters'sturges'Il est décidé sur la base de la loi. Ceci n'est meilleur que pour les données gaussiennes et sous-estime le nombre de cases pour les grands ensembles de données non gaussiens.
remove_outliers bool, default = False Lorsqu'elle est définie sur True, les valeurs aberrantes sont supprimées des données d'apprentissage à l'aide de la réduction de dimension linéaire PCA à l'aide de techniques de décomposition de singularité.
outliers_threshold float, default = 0.05 Pourcentage de valeurs aberrantes dans l'ensemble de données/Le pourcentage est la valeur aberrante du paramètre_Il peut être défini à l'aide d'un seuil. Par défaut, 0.05 est utilisé. C'est 0 pour chaque côté de la queue de la distribution.Cela signifie que 025 est supprimé des données d'entraînement.
remove_multicollinearity bool, default = False Lorsqu'il est défini sur True, multicollinéarité_Les variables qui ont une corrélation plus élevée que le seuil défini par le paramètre de seuil sont supprimées. Si les deux entités ont une corrélation élevée l'une avec l'autre, l'entité avec la corrélation la plus faible avec la variable cible est supprimée.
multicollinearity_threshold float, default = 0.9 Le seuil utilisé pour supprimer les entités corrélées. supprimer supprimer_Activé uniquement si la multicolinéarité est définie sur True.
remove_perfect_collinearity bool, default = False Lorsqu'il est réglé sur True, colinéarité parfaite(corrélation=Quantité de caractéristique de 1)Est supprimée de l'ensemble de données et les deux entités sont 100%corrélationしている場合、そのうちの1つがランダムにデータセットから削除されます。
create_clusters bool, default = False Lorsqu'il est défini sur True, il crée des fonctionnalités supplémentaires où chaque instance est affectée à un cluster. Le nombre de clusters est Calinski-Déterminé à l'aide d'une combinaison de critères Harabasz et Silhouette.
cluster_iter int, default = 20 Le nombre d'itérations utilisées pour créer le cluster. Chaque itération représente la taille du cluster. créer créer_Uniquement valide si le paramètre clusters est défini sur True.
polynomial_features bool, default = False Lorsqu'il est défini sur True, le polynôme existe dans les entités numériques du jeu de données._Une nouvelle fonction est créée sur la base de la combinaison de tous les polynômes jusqu'au degré défini par le paramètre de degré.
polynomial_degree int, default = 2 L'ordre des caractéristiques polymorphes. Par exemple, l'échantillon d'entrée est bidimensionnel[a, b]Sous la forme de=Les caractéristiques polymorphes de 2 sont les suivantes. 1, a, b, a^2, ab, b^2]Il devient.
trigonometry_features bool, default = False Si défini sur True, polynôme présent dans les entités numériques du jeu de données_Une nouvelle quantité de caractéristiques est créée en fonction de la combinaison de toutes les fonctions triangulaires jusqu'à l'ordre défini par le paramètre de degré.
polynomial_threshold float, default = 0.1 Il est utilisé pour compresser une matrice clairsemée de caractéristiques polymorphes et de caractéristiques triangulaires. Les entités fonctionnelles polygonales et triangulaires dont l'importance des entités basées sur une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire sont comprises dans le percentile seuil défini sont conservées dans l'ensemble de données. Les fonctionnalités restantes sont supprimées avant le traitement ultérieur.
group_features list or list of list, default = None Grouper s'il contient des entités qui ont des entités liées à l'ensemble de données_featuresparam peut être utilisé pour l'extraction de caractéristiques statistiques. Par exemple, les entités numériques dans lesquelles les ensembles de données sont liés les uns aux autres ('Col1', 'Col2', 'Col3')Si vous avez un groupe_En passant une liste contenant les noms de colonnes sous les fonctionnalités, vous pouvez extraire des informations statistiques telles que la moyenne, la médiane, le mode et l'écart type.
group_names list, default = None group_Lorsque les fonctionnalités sont passées, regroupez sous forme de liste contenant des chaînes_Vous pouvez transmettre le nom du groupe dans le paramètre names. groupe_La longueur de la liste des noms est group_Doit être égal à la longueur des entités. Si les longueurs ne correspondent pas ou si le nom n'est pas transmis, groupez_1, group_Les nouvelles fonctionnalités sont nommées dans l'ordre, par exemple 2.
feature_selection bool, default = False Lorsqu'il est défini sur True, un sous-ensemble d'entités est sélectionné à l'aide d'une combinaison de différentes techniques d'importance de tri, telles que la forêt aléatoire, Adaboost et la corrélation linéaire avec les variables cibles. La taille du sous-ensemble est caractéristique_selection_Cela dépend de param. Ceci est couramment utilisé pour contraindre l'espace des fonctionnalités afin d'améliorer l'efficacité de la modélisation. polynôme_caractéristiques et fonctionnalités_Si vous utilisez l'interaction, fonctionnalité_selection_Il est fortement recommandé de définir le paramètre de seuil avec une valeur inférieure.
feature_selection_threshold float, default = 0.8 Seuil utilisé pour la sélection d'entités (y compris les entités polymorphes nouvellement créées). Plus la valeur est élevée, plus il y a de fonctionnalités. Caractéristiques de différentes valeurs, en particulier lors de l'utilisation d'entités polymorphes et d'interactions entre entités_selection_Nous vous recommandons d'essayer plusieurs fois en utilisant le seuil. La définition d'une valeur très faible est efficace, mais peut entraîner un sous-ajustement.
feature_interaction bool, default = False Lorsqu'il est défini sur True, interagit (a) avec toutes les variables numériques de l'ensemble de données, y compris les entités polynomiales et trigonométriques (si créées).*b) Créez une nouvelle fonctionnalité en faisant. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu sur les jeux de données avec de grands espaces d'entités.
feature_ratio bool, default = False Lorsqu'il est défini sur True, le rapport de toutes les variables numériques de l'ensemble de données (un/b) Calculez pour créer une nouvelle fonction. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu sur les jeux de données avec de grands espaces d'entités.
interaction_threshold bool, default = 0.01 polynomial_Semblable au seuil, il est utilisé pour compresser une nouvelle matrice creuse d'entités par interaction. Les entités dont l'importance basée sur une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire se situe dans les percentiles de seuil définis sont stockées dans l'ensemble de données. Les fonctionnalités restantes sont supprimées avant le traitement ultérieur.
transform_target bool, default = False Lorsqu'il est défini sur True, transformer_target_Convertit la variable cible telle que définie par le paramètre de méthode. La transformation cible est appliquée séparément de la transformation d'entité.
transform_target_method string, default = 'box-cox' Box-cox'et'yeo-johnson'La loi est soutenue. Boîte-Cox exige que les données d'entrée soient exactement positives, mais Yeo-Johnson prend en charge les données positives et négatives. transformer_target_la méthode est'box-cox'Et si la variable cible contient une valeur négative, la méthode en interne pour éviter les exceptions'yeo-johnson'Est obligé de.
data_split_shuffle bool, default = True Définissez sur False pour éviter que les lignes ne soient mélangées lors du fractionnement des données.
folds_shuffle bool, default = True Définissez sur False pour éviter que les lignes ne soient mélangées lors de l'utilisation de la validation croisée.
n_jobs int, default = -1 Spécifie le nombre de travaux à exécuter en parallèle(Pour les fonctions prenant en charge le traitement parallèle)-1 signifie utiliser tous les processeurs. Pour exécuter toutes les fonctions sur un seul processeur, n_Définissez les travaux sur Aucun.
html bool, default = True Définissez sur False pour désactiver l'affichage d'exécution du moniteur. Si vous utilisez un environnement qui ne prend pas en charge HTML, vous devez le définir sur False.
session_id int, default = None Si aucun, une graine aléatoire sera générée et renvoyée à la grille d'informations. Toutes les fonctions alors utilisées pendant l'expérience se verront alors attribuer un numéro unique en guise de graine. Cela peut être utilisé pour la reproductibilité après toute l'expérience.
log_experiment bool, default = False Lorsqu'il est défini sur True, toutes les métriques et paramètres sont enregistrés sur le serveur MLFlow.
experiment_name str, default = None Le nom de l'expérience à consigner. Si défini sur Aucun, par défaut'reg'Est utilisé comme alias pour le nom de l'expérience.
log_plots bool, default = False Lorsqu'il est défini sur True, enregistre un tracé particulier sous forme de fichier png dans MLflow. La valeur par défaut est False.
log_profile bool, default = False S'il est défini sur True, le profil de données sera également enregistré dans MLflow en tant que fichier html. La valeur par défaut est False.
log_data bool, default = False Lorsqu'il est défini sur True, les données d'entraînement et de test seront enregistrées en tant que csv.
silent bool, default = False S'il est défini sur True, aucune confirmation du type de données n'est requise. Tout le prétraitement est effectué en supposant un type de données automatiquement déduit. L'utilisation directe en dehors des pipelines établis n'est pas recommandée.
verbose Boolean, default = True Si verbose est défini sur False, la grille d'informations ne sera pas imprimée.
profile bool, default = False Lorsqu'il est défini sur true, le profil de données pour l'analyse exploratoire des données s'affiche dans un rapport HTML interactif.

Recommended Posts

A propos des arguments de la fonction setup de PyCaret
À propos des arguments de fonction (python)
À propos de la fonction Déplier
À propos de la fonction enumerate (python)
À propos des composants de Luigi
À propos des fonctionnalités de Python
À propos de la valeur de retour de pthread_mutex_init ()
À propos de la valeur de retour de l'histogramme.
À propos du type de base de Go
À propos de la limite supérieure de threads-max
À propos du comportement de yield_per de SqlAlchemy
À propos de la taille des points dans matplotlib
À propos de la liste de base des bases de Python
Pensez grossièrement à la fonction de perte
[Python3] Réécrire l'objet code de la fonction
À propos de l'équation normale de la régression linéaire
Je voulais faire attention au comportement des arguments par défaut de Python
J'ai essayé la fonction de tableau croisé dynamique des pandas
À propos de la précision de la méthode de calcul du rapport de circonférence d'Archimède
À propos du comportement de copy, deepcopy et numpy.copy
À propos du test
À propos de la notation de l'axe X du graphique à barres de Matplotlib
Battre la fonction de densité de probabilité de la distribution normale
Récupérer l'appelant d'une fonction en Python
À propos de la vitesse de traitement de SVM (SVC) de scikit-learn
Écrire une note sur la version python de python virtualenv
configuration de pyenv-virtualenv
Correction des arguments de la fonction utilisée dans map
À propos du contenu de développement de l'apprentissage automatique (exemple)
[Note] À propos du rôle du trait de soulignement "_" en Python
À propos du comportement de la file d'attente pendant le traitement parallèle
À propos de la file d'attente
Pensez à la nouvelle génération de Rack et WSGI
À propos des tests dans la mise en œuvre de modèles d'apprentissage automatique
#Une fonction qui renvoie le code de caractère d'une chaîne de caractères
À propos de l'inefficacité du transfert de données dans luigi on-memory
Dessinez sur Jupyter en utilisant la fonction de tracé des pandas
J'ai examiné l'argument class_weight de la fonction softmax_cross_entropy de Chainer.
À propos de l'ordre épuré dans l'ordre d'importation flake8
Tweetez la probabilité de précipitations dans le cadre de la fonction de bot
Une histoire sur le changement du nom principal de BlueZ
Comment frapper le document de Magic Function (Line Magic)
Notes personnelles sur l'intégration de vscode et anaconda
Un mémorandum sur la mise en œuvre des recommandations en Python
Le début de cif2cell
À propos de tout numpy
À propos de l'attribution de numpy.ndarray
À propos de MultiIndex of Pandas
le zen de Python
La première «fonction» GOLD
L'histoire de sys.path.append ()
À propos de la commande de service
Pas étonnamment connu! ?? Qu'en est-il des arguments de fonction intégrés? De quelle école êtes-vous? [Python]
Résumé des arguments Python
À propos de la variable du chainer
À propos de la matrice de confusion
À propos du modèle de visiteur
Dictionnaire des arguments de mots clés