Officiel PyCaret: Accueil --PyCaret Guide PyCaret: Guide PyCaret --PyCaret PyCaret Github:pycaret/pycaret: An open source, low-code machine learning library in Python
Paramètres | La description | Détails |
---|---|---|
data | {array-like, sparse matrix} | Shape (n_samples, n_features)Où n_échantillons est le nombre d'échantillons, n_fonctionnalités est le nombre de fonctionnalités. |
target | string | Le nom de la colonne à transmettre sous forme de chaîne de caractères. La variable cible peut être binaire ou multiclasse. Pour les cibles multiclasses, toutes les estimations sont incluses dans le classificateur OneVs Rest. |
train_size | float, default = 0.7 | La taille de l'ensemble d'entraînement. Par défaut, 70 de données%Est utilisé pour la formation et la vérification. Testez le reste des données/Utilisé pour les ensembles de retenue. |
sampling | bool, default = True | La taille de l'échantillon est de 25,Au-delà de 000 échantillons, pycaret construit des estimateurs de base de différentes tailles d'échantillon à partir de l'ensemble de données d'origine. Il renvoie des graphiques de performances des valeurs AUC, Précision, Rappel, Précision, Kappa et F1 à différents niveaux d'échantillonnage pour aider à déterminer la taille d'échantillon appropriée pour la modélisation. Vous devez ensuite saisir la taille d'échantillon souhaitée pour la formation et la validation dans l'environnement Picaret. Échantillon d'entrée_finaliser si la taille est inférieure à 1_model()Ensemble de données restant (1) uniquement lorsqu'il est appelé-Sample) est utilisé pour ajuster le modèle. |
sample_estimator | object, default = None | Si aucun, la régression logistique est utilisée par défaut. |
categorical_features | string, default = None | Catégoriel si le type de données inféré est incorrect_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Utilisez ce paramètre pour catégoriser si le type de est déduit comme numérique au lieu d'algorithmique_features = ['column1']Vous pouvez remplacer ce type en passant. |
categorical_imputation | string, default = 'constant' | Si une valeur manquante est trouvée dans la quantité de fonction de catégorie, un certain "non" est trouvé._Il est saisi avec la valeur «disponible». Une autre option disponible est'mode'Dans, entrez la valeur manquante en utilisant la valeur la plus fréquente dans l'ensemble de données d'entraînement. |
ordinal_features | dictionary, default = None | Ordinal si les données contiennent des caractéristiques hiérarchiques_Vous devez effectuer un encodage différent avec le paramètre features. Les données sont'low'、'medium'、'high'A une variable catégorielle avec la valeur de, faible< medium <ordinal s'il est connu pour être élevé_features = { 'column_name' : ['low', 'medium', 'high'] }Peut être passé comme. L'ordre de la liste doit être du plus bas au plus élevé. |
high_cardinality_features | string, default = None | Si une fonction avec une cardinalité élevée est incluse, elle peut être compressée à un niveau plus petit en la passant sous forme de liste de noms de colonnes avec une cardinalité élevée. |
high_cardinality_method | string, default = 'frequency' | La fréquence'frequency'Lorsqu'elle est définie sur, la valeur d'origine de la quantité d'entités est remplacée par la distribution de fréquence et quantifiée. Une autre méthode disponible est le «clustering», qui regroupe les attributs statistiques des données et remplace la valeur d'origine de l'entité par l'étiquette de cluster. |
numeric_features | string, default = None | Si le type de données déduit est incorrect, numérique_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Si le type de est déduit comme une catégorie plutôt que comme un nombre, utilisez ce paramètre pour_features = ['column1']Il peut être écrasé en passant. |
numeric_imputation | string, default = 'mean' | Si une valeur manquante est trouvée dans la quantité d'objets numériques, la valeur moyenne de la quantité d'objets est utilisée pour la saisie. Une autre option disponible est'median'Dans, entrez la valeur à l'aide de la valeur médiane de l'ensemble de données d'entraînement. |
date_features | string, default = None | Si les données ont une colonne DateTime qui n'est pas détectée automatiquement lors de la configuration, date_features = 'date_column_name'Vous pouvez utiliser ce paramètre en passant. Il peut fonctionner avec plusieurs colonnes de date. La colonne de date n'est pas utilisée dans la modélisation. Au lieu de cela, l'extraction d'entités est effectuée et la colonne de date est supprimée de l'ensemble de données. Si la colonne de date contient un horodatage, les fonctionnalités liées à l'heure sont également extraites. |
ignore_features | string, default = None | Param ignore s'il y a des fonctionnalités qui doivent être ignorées pour la modélisation_Vous pouvez le transmettre aux fonctionnalités. Les colonnes ID et DateTime lorsqu'elles sont déduites sont automatiquement définies pour être ignorées à des fins de modélisation. |
normalize | bool, default = False | S'il est défini sur True, le paramètre normalisé_L'espace des fonctionnalités est transformé à l'aide de la méthode. En général, les algorithmes linéaires fonctionnent mieux avec des données normalisées, mais les résultats peuvent varier. |
normalize_method | string, default = 'zscore' | Définit la méthode utilisée pour la normalisation. Par défaut, la méthode de normalisation est'zscore'Est réglé sur. Le zscore standard est z= (x - u) /Calculé comme s. |
minmax | 0 -Mettez à l'échelle et convertissez chaque entité individuellement afin qu'elle soit dans la plage de 1. | |
maxabs | La valeur absolue maximale de chaque fonction est 1.Chaque entité est mise à l'échelle et convertie individuellement pour qu'elle devienne 0. C'est un transfert de données/Puisqu'il ne centre pas, il ne détruit pas la sparéité. | |
robust | Chaque entité est mise à l'échelle et convertie en fonction de l'intervalle entre les tuiles de quark. Les scalers robustes donnent souvent de meilleurs résultats lorsque l'ensemble de données contient des valeurs aberrantes. | |
transformation | bool, default = False | Lorsqu'il est défini sur True, la conversion de puissance est appliquée de sorte que les données semblent plus gaussiennes régulières. Ceci est utile pour modéliser les problèmes liés à l'hétérogénéité et à d'autres situations où la normalité est souhaitée. Les paramètres optimaux pour stabiliser la dispersion et minimiser la déformation sont estimés par la méthode la plus probable. |
transformation_method | string, default = 'yeo-johnson' | Définit la méthode de conversion. Par défaut, la méthode de conversion est'yeo-johnson'Est réglé sur. Comme une autre option'quantile'Il y a une conversion. Les deux transformations transforment l'ensemble d'entités pour suivre une distribution gaussienne ou normale. Notez que la transformation de division est non linéaire et peut fausser la corrélation linéaire entre les variables mesurées sur la même échelle. |
handle_unknown_categorical | bool, default = True | Nouveau si défini sur True/Le niveau de catégorie inconnu des données invisibles est remplacé par le niveau le plus fréquent ou le moins fréquent formé dans les données d'entraînement. Cette méthode est inconnue_categorical_Défini dans le paramètre de méthode. |
unknown_categorical_method | string, default = 'least_frequent' | Méthode utilisée pour remplacer un niveau catégoriel inconnu de données invisibles. La méthode est'least_frequent'Ou'most_frequent'Peut être défini sur. |
pca | bool, default = False | S'il est défini sur True, pca_La réduction de dimension est appliquée pour projeter les données dans un espace dimensionnel inférieur à l'aide de la méthode définie par le paramètre de méthode. Dans l'apprentissage supervisé, pca est généralement exécuté lorsqu'il s'agit d'espaces de fonctionnalités élevés ou lorsque la mémoire est contrainte. Notez que tous les ensembles de données ne peuvent pas être décomposés efficacement à l'aide des techniques de l'ACP linéaire, et l'application de l'ACP peut entraîner une perte d'informations. Par conséquent, différents PCA pour évaluer son impact_Nous vous recommandons d'effectuer plusieurs expériences à l'aide de méthodes. |
pca_method | string, default = 'linear' | La méthode linéaire utilise la décomposition de singularité pour effectuer une réduction de dimension linéaire. Les autres options disponibles sont: |
kernel | Réduction de dimension à l'aide du noyau RVF. | |
incremental | Si l'ensemble de données que vous souhaitez décomposer est trop volumineux pour tenir en mémoire'linear'Remplacez pca. | |
pca_components | int/float, default = 0.99 | pca_Si les composants sont flottants, ils sont traités comme un pourcentage cible pour conserver les informations. PCA_Si les composants sont des entiers, ils sont traités comme le nombre d'entités à conserver. PCA_Les composants doivent être strictement inférieurs aux caractéristiques d'origine de l'ensemble de données. |
ignore_low_variance | bool, default = False | Lorsqu'il est défini sur True, toutes les entités de catégorie avec des écarts non statistiquement significatifs sont supprimées de l'ensemble de données. La variance est calculée en utilisant le rapport des valeurs uniques au nombre d'échantillons et le rapport des valeurs les plus courantes à la fréquence de la deuxième valeur la plus élevée. |
combine_rare_levels | bool, default = False | Si défini sur True, param rare_level_Tous les niveaux de caractéristiques de catégorie inférieurs au seuil défini par seuil sont combinés en un seul niveau. Il doit y avoir au moins deux niveaux sous le seuil pour que cela prenne effet. rare_level_seuil représente la distribution en centile de la fréquence de niveau. En général, cette méthode est appliquée pour limiter les matrices éparses en raison du grand nombre de niveaux dans les caractéristiques catégorielles. |
rare_level_threshold | float, default = 0.1 | Une distribution centile qui combine des catégories rares. combiner_rare_Activé uniquement si les niveaux sont définis sur True. |
bin_numeric_features | list, default = None | Lorsqu'une liste d'entités numériques est transmise, elles sont converties en entités catégorielles à l'aide de KMeans. Le nombre de clusters'sturges'Il est décidé sur la base de la loi. Ceci n'est meilleur que pour les données gaussiennes et sous-estime le nombre de cases pour les grands ensembles de données non gaussiens. |
remove_outliers | bool, default = False | Lorsqu'elle est définie sur True, les valeurs aberrantes sont supprimées des données d'apprentissage à l'aide de la réduction de dimension linéaire PCA à l'aide de techniques de décomposition de singularité. |
outliers_threshold | float, default = 0.05 | Pourcentage de valeurs aberrantes dans l'ensemble de données/Le pourcentage est la valeur aberrante du paramètre_Il peut être défini à l'aide d'un seuil. Par défaut, 0.05 est utilisé. C'est 0 pour chaque côté de la queue de la distribution.Cela signifie que 025 est supprimé des données d'entraînement. |
remove_multicollinearity | bool, default = False | Lorsqu'il est défini sur True, multicollinéarité_Les variables qui ont une corrélation plus élevée que le seuil défini par le paramètre de seuil sont supprimées. Si les deux entités ont une corrélation élevée l'une avec l'autre, l'entité avec la corrélation la plus faible avec la variable cible est supprimée. |
multicollinearity_threshold | float, default = 0.9 | Le seuil utilisé pour supprimer les entités corrélées. supprimer supprimer_Activé uniquement si la multicolinéarité est définie sur True. |
remove_perfect_collinearity | bool, default = False | Lorsqu'il est réglé sur True, colinéarité parfaite(corrélation=Quantité de caractéristique de 1)Est supprimée de l'ensemble de données et les deux entités sont 100%corrélationしている場合、そのうちの1つがランダムにデータセットから削除されます。 |
create_clusters | bool, default = False | Lorsqu'il est défini sur True, il crée des fonctionnalités supplémentaires où chaque instance est affectée à un cluster. Le nombre de clusters est Calinski-Déterminé à l'aide d'une combinaison de critères Harabasz et Silhouette. |
cluster_iter | int, default = 20 | Le nombre d'itérations utilisées pour créer le cluster. Chaque itération représente la taille du cluster. créer créer_Uniquement valide si le paramètre clusters est défini sur True. |
polynomial_features | bool, default = False | Lorsqu'il est défini sur True, le polynôme existe dans les entités numériques du jeu de données._Une nouvelle fonction est créée sur la base de la combinaison de tous les polynômes jusqu'au degré défini par le paramètre de degré. |
polynomial_degree | int, default = 2 | L'ordre des caractéristiques polymorphes. Par exemple, l'échantillon d'entrée est bidimensionnel[a, b]Sous la forme de=Les caractéristiques polymorphes de 2 sont les suivantes. 1, a, b, a^2, ab, b^2]Il devient. |
trigonometry_features | bool, default = False | Si défini sur True, polynôme présent dans les entités numériques du jeu de données_Une nouvelle quantité de caractéristiques est créée en fonction de la combinaison de toutes les fonctions triangulaires jusqu'à l'ordre défini par le paramètre de degré. |
polynomial_threshold | float, default = 0.1 | L'ensemble de données contient des entités polymorphes et triangulaires qui se situent dans le seuil de centile défini de l'importance de l'entité en fonction d'une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire. Les quantités d'objets restantes sont supprimées avant que le traitement ne soit effectué. |
group_features | list or list of list, default = None | Grouper s'il contient des entités qui ont des entités liées à l'ensemble de données_Le paramètre features peut être utilisé pour l'extraction de caractéristiques statistiques. Par exemple, les entités numériques dans lesquelles les ensembles de données sont liés les uns aux autres ('Col1', 'Col2', 'Col3')Si vous avez un groupe_En passant une liste contenant les noms de colonnes sous les fonctionnalités, vous pouvez extraire des informations statistiques telles que la moyenne, la médiane, le mode et l'écart type. |
group_names | list, default = None | group_Lorsque les fonctionnalités sont passées, regroupez sous forme de liste contenant des chaînes_Vous pouvez transmettre le nom du groupe dans le paramètre names. groupe_La longueur de la liste des noms est group_Doit être égal à la longueur des entités. Si les longueurs ne correspondent pas ou si le nom n'est pas transmis, groupez_1, group_Les nouvelles fonctionnalités sont nommées dans l'ordre, par exemple 2. |
feature_selection | bool, default = False | Lorsqu'il est défini sur True, un sous-ensemble d'entités est sélectionné à l'aide d'une combinaison de différentes techniques d'importance de tri, telles que la forêt aléatoire, Adaboost et la corrélation linéaire avec les variables cibles. La taille du sous-ensemble est caractéristique_selection_Cela dépend de param. Ceci est couramment utilisé pour contraindre l'espace des fonctionnalités afin d'améliorer l'efficacité de la modélisation. polynôme_caractéristiques et fonctionnalités_Si vous utilisez l'interaction, fonctionnalité_selection_Il est fortement recommandé de définir le paramètre de seuil avec une valeur inférieure. |
feature_selection_threshold | float, default = 0.8 | Seuil utilisé pour la sélection d'entités (y compris les entités polymorphes nouvellement créées). Plus la valeur est élevée, plus l'espace des fonctionnalités est grand. Caractéristiques de différentes valeurs, en particulier lorsque des caractéristiques polymorphes et des interactions caractéristique à caractéristique sont utilisées_selection_Il est recommandé de faire plusieurs essais en utilisant le seuil. La définition d'une valeur très faible peut être efficace, mais elle peut entraîner un sous-ajustement. |
feature_interaction | bool, default = False | Lorsqu'il est défini sur True, interagit (a) avec toutes les variables numériques de l'ensemble de données, y compris les entités polynomiales et trigonométriques (si créées).*b) Créez une nouvelle fonctionnalité en faisant. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu sur les jeux de données avec de grands espaces d'entités. |
feature_ratio | bool, default = False | Lorsqu'il est défini sur True, le rapport de toutes les variables numériques de l'ensemble de données (un/b) Calculez pour créer une nouvelle fonction. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu pour les jeux de données avec de grands espaces d'entités. |
interaction_threshold | bool, default = 0.01 | polynomial_Semblable au seuil, il est utilisé pour compresser une nouvelle matrice creuse d'entités par interaction. Les entités dont l'importance basée sur une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire se situe dans les percentiles de seuil définis sont stockées dans l'ensemble de données. Les fonctionnalités restantes sont supprimées avant le traitement ultérieur. |
fix_imbalance | bool, default = False | Si l'ensemble de données a une distribution inégale des classes cibles, corrigez_Il peut être modifié à l'aide du paramètre de déséquilibre. Lorsqu'il est défini sur True, SMOTE par défaut(Synthetic Minority Over-sampling Technique)S'applique pour créer un point de données composite pour la classe minoritaire. |
fix_imbalance_method | obj, default = None | fix_Définissez le déséquilibre sur Vrai et corrigez_imbalance_Si la méthode est définie sur Aucun, elle suréchantillonnera par défaut les classes minoritaires lors de la validation croisée.'smote'Est appliqué. Ce paramètre est'fit_resample'Prend en charge les méthodes'imblearn'Tout module peut être accepté. |
data_split_shuffle | bool, default = True | Définissez sur False pour éviter que les lignes ne soient mélangées lors du fractionnement des données. |
folds_shuffle | bool, default = False | Définissez sur False pour éviter que les lignes ne soient mélangées lors de l'utilisation de la validation croisée. |
n_jobs | int, default = -1 | Spécifie le nombre de travaux à exécuter en parallèle(Pour les fonctions prenant en charge le traitement parallèle)-1 signifie utiliser tous les processeurs. Pour exécuter toutes les fonctions sur un seul processeur, n_Définissez les travaux sur Aucun. |
html | bool, default = True | Définissez sur False pour désactiver l'affichage d'exécution du moniteur. Si vous utilisez un environnement qui ne prend pas en charge HTML, vous devez le définir sur False. |
session_id | int, default = None | Si aucun, une graine aléatoire sera générée et renvoyée à la grille d'informations. Toutes les fonctions alors utilisées pendant l'expérience se verront alors attribuer un numéro unique en guise de graine. Cela peut être utilisé pour la reproductibilité après toute l'expérience. |
log_experiment | bool, default = False | Lorsqu'il est défini sur True, toutes les métriques et paramètres sont enregistrés sur le serveur MLFlow. |
experiment_name | str, default = None | Le nom de l'expérience à consigner. Si défini sur Aucun, par défaut'clf'Est utilisé comme alias pour le nom de l'expérience. |
log_plots | bool, default = False | Lorsqu'il est défini sur True, enregistre un tracé particulier sous forme de fichier png dans MLflow. La valeur par défaut est False. |
log_profile | bool, default = False | S'il est défini sur True, le profil de données sera également enregistré dans MLflow en tant que fichier html. La valeur par défaut est False. |
log_data | bool, default = False | Lorsqu'il est défini sur True, les données d'entraînement et de test seront enregistrées en tant que csv. |
silent | bool, default = False | S'il est défini sur True, aucune confirmation du type de données n'est requise. Tout le prétraitement est effectué en supposant un type de données automatiquement déduit. L'utilisation directe en dehors des pipelines établis n'est pas recommandée. |
verbose | Boolean, default = True | Si verbose est défini sur False, la grille d'informations ne sera pas imprimée. |
profile | bool, default = False | Lorsqu'il est défini sur true, le profil de données pour l'analyse exploratoire des données s'affiche dans un rapport HTML interactif. |
Paramètres | La description | Détails |
---|---|---|
data | {array-like, sparse matrix} | Shape (n_samples, n_features)Où n_échantillons est le nombre d'échantillons, n_fonctionnalités est le nombre de fonctionnalités. |
target | string | Le nom de la colonne à transmettre sous forme de chaîne de caractères. |
train_size | float, default = 0.7 | La taille de l'ensemble d'entraînement. Par défaut, 70 de données%Est utilisé pour la formation et la vérification. Testez le reste des données/Utilisé pour les ensembles de retenue. |
sampling | bool, default = True | La taille de l'échantillon est de 25,Au-delà de 000 échantillons, pycaret construit des estimateurs de base de différentes tailles d'échantillon à partir de l'ensemble de données d'origine. Cela renvoie des graphiques de performances des valeurs R2 à différents niveaux d'échantillonnage pour aider à déterminer une taille d'échantillon appropriée pour la modélisation. Ensuite, vous devez entrer la taille d'échantillon souhaitée pour la formation et la validation dans l'environnement pycaret. Échantillon d'entrée_finaliser si la taille est inférieure à 1_model()Ensemble de données restant (1) uniquement lorsqu'il est appelé-sample) est utilisé pour ajuster le modèle. |
sample_estimator | object, default = None | Sinon, la régression linéaire est utilisée par défaut. |
categorical_features | string, default = None | Catégoriel si le type de données inféré est incorrect_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Utilisez ce paramètre pour catégoriser si le type de est déduit comme numérique au lieu d'algorithmique_features = ['column1']Vous pouvez remplacer ce type en passant. |
categorical_imputation | string, default = 'constant' | Si une valeur manquante est trouvée dans la quantité de fonction de catégorie, un certain «non» est trouvé._Il est saisi avec la valeur «disponible». Une autre option disponible est'mode'Dans, entrez la valeur manquante en utilisant la valeur la plus fréquente dans l'ensemble de données d'entraînement. |
ordinal_features | dictionary, default = None | Ordinal si les données contiennent des caractéristiques hiérarchiques_Vous devez effectuer un encodage différent avec le paramètre features. Les données sont'low'、'medium'、'high'A une variable catégorielle avec la valeur de, faible< medium <ordinal s'il est connu pour être élevé_features = { 'column_name' : ['low', 'medium', 'high'] }Peut être passé comme. L'ordre de la liste doit être du plus bas au plus élevé. |
high_cardinality_features | string, default = None | Si vos données contiennent des fonctionnalités à cardinalité élevée, vous pouvez les réduire à un niveau inférieur en les transmettant sous forme de liste de noms de colonnes à cardinalité élevée. La compression des fonctionnalités est extrêmement élevée_cardinality_Utilisez la méthode définie dans method. |
high_cardinality_method | string, default = 'frequency' | La fréquence'frequency'Lorsqu'elle est définie sur, la valeur d'origine de la quantité d'entités est remplacée par la distribution de fréquence et quantifiée. Une autre méthode disponible est le «clustering», qui regroupe les attributs statistiques des données et remplace la valeur d'origine de l'entité par l'étiquette de cluster. |
numeric_features | string, default = None | Si le type de données déduit est incorrect, numérique_Vous pouvez utiliser des fonctionnalités pour remplacer le type inféré. Lors de l'exécution de l'installation'column1'Si le type de est déduit comme une catégorie plutôt que comme un nombre, utilisez ce paramètre pour_features = ['column1']Il peut être écrasé en passant. |
numeric_imputation | string, default = 'mean' | Si une valeur manquante est trouvée dans la quantité d'objets numériques, la valeur moyenne de la quantité d'objets est utilisée pour la saisie. Une autre option disponible est'median'Dans, entrez la valeur à l'aide de la valeur médiane de l'ensemble de données d'entraînement. |
date_features | string, default = None | Si les données ont une colonne DateTime qui n'est pas détectée automatiquement lors de la configuration, date_features = 'date_column_name'Vous pouvez utiliser ce paramètre en passant. Il peut fonctionner avec plusieurs colonnes de date. La colonne de date n'est pas utilisée dans la modélisation. Au lieu de cela, l'extraction d'entités est effectuée et la colonne de date est supprimée de l'ensemble de données. Si la colonne de date contient un horodatage, les fonctionnalités liées à l'heure sont également extraites. |
ignore_features | string, default = None | Param ignore s'il y a des fonctionnalités qui doivent être ignorées pour la modélisation_Vous pouvez le transmettre aux fonctionnalités. Les colonnes ID et DateTime lorsqu'elles sont déduites sont automatiquement définies pour être ignorées à des fins de modélisation. |
normalize | bool, default = False | S'il est défini sur True, le paramètre normalisé_L'espace des fonctionnalités est transformé à l'aide de la méthode. En général, les algorithmes linéaires fonctionnent mieux avec des données normalisées, mais les résultats peuvent varier. |
normalize_method | string, default = 'zscore' | Définit la méthode utilisée pour la normalisation. Par défaut, la méthode de normalisation est'zscore'Est réglé sur. Le zscore standard est z= (x - u) /Calculé comme s. |
minmax | minmax' : 0 -Mettez à l'échelle et convertissez chaque entité individuellement afin qu'elle soit dans la plage de 1. | |
maxabs | maxabs':La valeur absolue maximale de chaque fonction est 1.Chaque entité est mise à l'échelle et convertie individuellement pour qu'elle devienne 0. C'est un transfert de données/Puisqu'il ne centre pas, il ne détruit pas la sparéité. | |
robust | robust':Chaque entité est mise à l'échelle et convertie en fonction de l'intervalle entre les tuiles de quark. Les scalers robustes donnent souvent de meilleurs résultats lorsque l'ensemble de données contient des valeurs aberrantes. | |
transformation | bool, default = False | Définir sur True pour rendre les données plus normales/La conversion du multiplicateur est appliquée pour la rendre gaussienne. Ceci est utile pour modéliser les problèmes liés à l'hétérogénéité et à d'autres situations où la normalité est souhaitée. Les paramètres optimaux pour stabiliser la dispersion et minimiser la déformation sont estimés par la méthode la plus probable. |
transformation_method | string, default = 'yeo-johnson' | Définit la méthode de conversion. Par défaut, la méthode de conversion est'yeo-johnson'Est réglé sur. Comme une autre option'quantile'Il y a une conversion. Les deux transformations transforment l'ensemble d'entités pour suivre une distribution gaussienne ou normale. Notez que la transformation de division est non linéaire et peut fausser la corrélation linéaire entre les variables mesurées sur la même échelle. |
handle_unknown_categorical | bool, default = True | Nouveau si défini sur True/Le niveau de catégorie inconnu des données non vues est remplacé par le niveau le plus fréquent ou le moins fréquent formé dans les données d'entraînement. Cette méthode est inconnue_categorical_Défini dans le paramètre de méthode. |
unknown_categorical_method | string, default = 'least_frequent' | Méthode utilisée pour remplacer un niveau catégoriel inconnu de données invisibles. Dans la méthode'least_frequent'Ou'most_frequent'Peut être mis en place. |
pca | bool, default = False | S'il est défini sur True, pca_La réduction de dimension est appliquée pour projeter les données dans un espace dimensionnel inférieur à l'aide de la méthode définie par le paramètre de méthode. Dans l'apprentissage supervisé, pca est généralement exécuté lorsqu'il s'agit d'espaces de fonctionnalités élevés ou lorsque la mémoire est contrainte. Notez que tous les ensembles de données ne peuvent pas être décomposés efficacement à l'aide des techniques de l'ACP linéaire, et l'application de l'ACP peut entraîner une perte d'informations. Par conséquent, différents PCA pour évaluer son impact_Nous vous recommandons d'effectuer plusieurs expériences à l'aide de méthodes. |
pca_method | string, default = 'linear' | La méthode linéaire utilise la décomposition de singularité pour effectuer une réduction de dimension linéaire. Les autres options disponibles sont: |
kernel | Réduction de dimension à l'aide du noyau RVF. | |
incremental | Si l'ensemble de données que vous souhaitez décomposer est trop volumineux pour tenir en mémoire'linear'Remplacez pca. | |
pca_components | int/float, default = 0.99 | pca_Si les composants sont flottants, ils sont traités comme un pourcentage cible pour la conservation des informations. PCA_Si les composants sont des entiers, ils sont traités comme le nombre d'entités à conserver. PCA_Les composants doivent être strictement inférieurs aux caractéristiques d'origine de l'ensemble de données. |
ignore_low_variance | bool, default = False | Lorsqu'il est défini sur True, toutes les entités de catégorie avec des écarts non statistiquement significatifs sont supprimées de l'ensemble de données. La variance est calculée en utilisant le rapport des valeurs uniques au nombre d'échantillons et le rapport des valeurs les plus courantes à la fréquence de la deuxième valeur la plus élevée. |
combine_rare_levels | bool, default = False | Si défini sur True, param rare_level_Tous les niveaux de caractéristiques de catégorie en dessous du seuil défini par seuil sont combinés en un seul niveau. Il doit y avoir au moins deux niveaux en dessous du seuil pour que cela prenne effet. rare_level_seuil représente la distribution en centile de la fréquence de niveau. En général, cette méthode est appliquée pour limiter les matrices éparses en raison du grand nombre de niveaux dans les caractéristiques catégorielles. |
rare_level_threshold | float, default = 0.1 | Une distribution centile qui combine des catégories rares. combiner_rare_Activé uniquement si les niveaux sont définis sur True. |
bin_numeric_features | list, default = None | Lorsqu'une liste d'entités numériques est transmise, elles sont converties en entités catégorielles à l'aide de KMeans. Le nombre de clusters'sturges'Il est décidé sur la base de la loi. Ceci n'est meilleur que pour les données gaussiennes et sous-estime le nombre de cases pour les grands ensembles de données non gaussiens. |
remove_outliers | bool, default = False | Lorsqu'elle est définie sur True, les valeurs aberrantes sont supprimées des données d'apprentissage à l'aide de la réduction de dimension linéaire PCA à l'aide de techniques de décomposition de singularité. |
outliers_threshold | float, default = 0.05 | Pourcentage de valeurs aberrantes dans l'ensemble de données/Le pourcentage est la valeur aberrante du paramètre_Il peut être défini à l'aide d'un seuil. Par défaut, 0.05 est utilisé. C'est 0 pour chaque côté de la queue de la distribution.Cela signifie que 025 est supprimé des données d'entraînement. |
remove_multicollinearity | bool, default = False | Lorsqu'il est défini sur True, multicollinéarité_Les variables qui ont une corrélation plus élevée que le seuil défini par le paramètre de seuil sont supprimées. Si les deux entités ont une corrélation élevée l'une avec l'autre, l'entité avec la corrélation la plus faible avec la variable cible est supprimée. |
multicollinearity_threshold | float, default = 0.9 | Le seuil utilisé pour supprimer les entités corrélées. supprimer supprimer_Activé uniquement si la multicolinéarité est définie sur True. |
remove_perfect_collinearity | bool, default = False | Lorsqu'il est réglé sur True, colinéarité parfaite(corrélation=Quantité de caractéristique de 1)Est supprimée de l'ensemble de données et les deux entités sont 100%corrélationしている場合、そのうちの1つがランダムにデータセットから削除されます。 |
create_clusters | bool, default = False | Lorsqu'il est défini sur True, il crée des fonctionnalités supplémentaires où chaque instance est affectée à un cluster. Le nombre de clusters est Calinski-Déterminé à l'aide d'une combinaison de critères Harabasz et Silhouette. |
cluster_iter | int, default = 20 | Le nombre d'itérations utilisées pour créer le cluster. Chaque itération représente la taille du cluster. créer créer_Uniquement valide si le paramètre clusters est défini sur True. |
polynomial_features | bool, default = False | Lorsqu'il est défini sur True, le polynôme existe dans les entités numériques du jeu de données._Une nouvelle fonction est créée sur la base de la combinaison de tous les polynômes jusqu'au degré défini par le paramètre de degré. |
polynomial_degree | int, default = 2 | L'ordre des caractéristiques polymorphes. Par exemple, l'échantillon d'entrée est bidimensionnel[a, b]Sous la forme de=Les caractéristiques polymorphes de 2 sont les suivantes. 1, a, b, a^2, ab, b^2]Il devient. |
trigonometry_features | bool, default = False | Si défini sur True, polynôme présent dans les entités numériques du jeu de données_Une nouvelle quantité de caractéristiques est créée en fonction de la combinaison de toutes les fonctions triangulaires jusqu'à l'ordre défini par le paramètre de degré. |
polynomial_threshold | float, default = 0.1 | Il est utilisé pour compresser une matrice clairsemée de caractéristiques polymorphes et de caractéristiques triangulaires. Les entités fonctionnelles polygonales et triangulaires dont l'importance des entités basées sur une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire sont comprises dans le percentile seuil défini sont conservées dans l'ensemble de données. Les fonctionnalités restantes sont supprimées avant le traitement ultérieur. |
group_features | list or list of list, default = None | Grouper s'il contient des entités qui ont des entités liées à l'ensemble de données_featuresparam peut être utilisé pour l'extraction de caractéristiques statistiques. Par exemple, les entités numériques dans lesquelles les ensembles de données sont liés les uns aux autres ('Col1', 'Col2', 'Col3')Si vous avez un groupe_En passant une liste contenant les noms de colonnes sous les fonctionnalités, vous pouvez extraire des informations statistiques telles que la moyenne, la médiane, le mode et l'écart type. |
group_names | list, default = None | group_Lorsque les fonctionnalités sont passées, regroupez sous forme de liste contenant des chaînes_Vous pouvez transmettre le nom du groupe dans le paramètre names. groupe_La longueur de la liste des noms est group_Doit être égal à la longueur des entités. Si les longueurs ne correspondent pas ou si le nom n'est pas transmis, groupez_1, group_Les nouvelles fonctionnalités sont nommées dans l'ordre, par exemple 2. |
feature_selection | bool, default = False | Lorsqu'il est défini sur True, un sous-ensemble d'entités est sélectionné à l'aide d'une combinaison de différentes techniques d'importance de tri, telles que la forêt aléatoire, Adaboost et la corrélation linéaire avec les variables cibles. La taille du sous-ensemble est caractéristique_selection_Cela dépend de param. Ceci est couramment utilisé pour contraindre l'espace des fonctionnalités afin d'améliorer l'efficacité de la modélisation. polynôme_caractéristiques et fonctionnalités_Si vous utilisez l'interaction, fonctionnalité_selection_Il est fortement recommandé de définir le paramètre de seuil avec une valeur inférieure. |
feature_selection_threshold | float, default = 0.8 | Seuil utilisé pour la sélection d'entités (y compris les entités polymorphes nouvellement créées). Plus la valeur est élevée, plus il y a de fonctionnalités. Caractéristiques de différentes valeurs, en particulier lors de l'utilisation d'entités polymorphes et d'interactions entre entités_selection_Nous vous recommandons d'essayer plusieurs fois en utilisant le seuil. La définition d'une valeur très faible est efficace, mais peut entraîner un sous-ajustement. |
feature_interaction | bool, default = False | Lorsqu'il est défini sur True, interagit (a) avec toutes les variables numériques de l'ensemble de données, y compris les entités polynomiales et trigonométriques (si créées).*b) Créez une nouvelle fonctionnalité en faisant. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu sur les jeux de données avec de grands espaces d'entités. |
feature_ratio | bool, default = False | Lorsqu'il est défini sur True, le rapport de toutes les variables numériques de l'ensemble de données (un/b) Calculez pour créer une nouvelle fonction. Cette fonctionnalité n'est pas évolutive et peut ne pas fonctionner comme prévu sur les jeux de données avec de grands espaces d'entités. |
interaction_threshold | bool, default = 0.01 | polynomial_Semblable au seuil, il est utilisé pour compresser une nouvelle matrice creuse d'entités par interaction. Les entités dont l'importance basée sur une combinaison de forêt aléatoire, d'AdaBoost et de corrélation linéaire se situe dans les percentiles de seuil définis sont stockées dans l'ensemble de données. Les fonctionnalités restantes sont supprimées avant le traitement ultérieur. |
transform_target | bool, default = False | Lorsqu'il est défini sur True, transformer_target_Convertit la variable cible telle que définie par le paramètre de méthode. La transformation cible est appliquée séparément de la transformation d'entité. |
transform_target_method | string, default = 'box-cox' | Box-cox'et'yeo-johnson'La loi est soutenue. Boîte-Cox exige que les données d'entrée soient exactement positives, mais Yeo-Johnson prend en charge les données positives et négatives. transformer_target_la méthode est'box-cox'Et si la variable cible contient une valeur négative, la méthode en interne pour éviter les exceptions'yeo-johnson'Est obligé de. |
data_split_shuffle | bool, default = True | Définissez sur False pour éviter que les lignes ne soient mélangées lors du fractionnement des données. |
folds_shuffle | bool, default = True | Définissez sur False pour éviter que les lignes ne soient mélangées lors de l'utilisation de la validation croisée. |
n_jobs | int, default = -1 | Spécifie le nombre de travaux à exécuter en parallèle(Pour les fonctions prenant en charge le traitement parallèle)-1 signifie utiliser tous les processeurs. Pour exécuter toutes les fonctions sur un seul processeur, n_Définissez les travaux sur Aucun. |
html | bool, default = True | Définissez sur False pour désactiver l'affichage d'exécution du moniteur. Si vous utilisez un environnement qui ne prend pas en charge HTML, vous devez le définir sur False. |
session_id | int, default = None | Si aucun, une graine aléatoire sera générée et renvoyée à la grille d'informations. Toutes les fonctions alors utilisées pendant l'expérience se verront alors attribuer un numéro unique en guise de graine. Cela peut être utilisé pour la reproductibilité après toute l'expérience. |
log_experiment | bool, default = False | Lorsqu'il est défini sur True, toutes les métriques et paramètres sont enregistrés sur le serveur MLFlow. |
experiment_name | str, default = None | Le nom de l'expérience à consigner. Si défini sur Aucun, par défaut'reg'Est utilisé comme alias pour le nom de l'expérience. |
log_plots | bool, default = False | Lorsqu'il est défini sur True, enregistre un tracé particulier sous forme de fichier png dans MLflow. La valeur par défaut est False. |
log_profile | bool, default = False | S'il est défini sur True, le profil de données sera également enregistré dans MLflow en tant que fichier html. La valeur par défaut est False. |
log_data | bool, default = False | Lorsqu'il est défini sur True, les données d'entraînement et de test seront enregistrées en tant que csv. |
silent | bool, default = False | S'il est défini sur True, aucune confirmation du type de données n'est requise. Tout le prétraitement est effectué en supposant un type de données automatiquement déduit. L'utilisation directe en dehors des pipelines établis n'est pas recommandée. |
verbose | Boolean, default = True | Si verbose est défini sur False, la grille d'informations ne sera pas imprimée. |
profile | bool, default = False | Lorsqu'il est défini sur true, le profil de données pour l'analyse exploratoire des données s'affiche dans un rapport HTML interactif. |
Recommended Posts