PyCaret-Beamter: Home - PyCaret PyCaret-Handbuch: PyCaret-Handbuch - PyCaret PyCaret Github:pycaret/pycaret: An open source, low-code machine learning library in Python
Parameter | Erläuterung | Einzelheiten |
---|---|---|
data | {array-like, sparse matrix} | Shape (n_samples, n_features)Wo n_Proben ist die Anzahl der Proben, n_Features ist die Anzahl der Features. |
target | string | Der Spaltenname, der als Zeichenfolge übergeben werden soll. Die Zielvariable kann binär oder mehrklassig sein. Bei Zielen mit mehreren Klassen werden alle Schätzungen in den OneVs Rest-Klassifizierer eingeschlossen. |
train_size | float, default = 0.7 | Die Größe des Trainingssatzes. Standardmäßig 70 Daten%Wird zur Schulung und Überprüfung verwendet. Testen Sie den Rest der Daten/Wird für Holdout-Sets verwendet. |
sampling | bool, default = True | Die Stichprobengröße beträgt 25,Über 000 Stichproben hinaus erstellt Pycaret Basisschätzer für verschiedene Stichprobengrößen aus dem Originaldatensatz. Es werden Leistungsdiagramme von AUC-, Genauigkeits-, Rückruf-, Präzisions-, Kappa- und F1-Werten auf verschiedenen Stichprobenebenen zurückgegeben, um die geeignete Stichprobengröße für die Modellierung zu bestimmen. Anschließend müssen Sie die gewünschte Stichprobengröße für das Training und die Validierung in einer Piecaret-Umgebung eingeben. Probe eingeben_finalisieren, wenn die Größe kleiner als 1 ist_model()Verbleibender Datensatz (1) nur beim Aufruf-Probe) wird verwendet, um das Modell anzupassen. |
sample_estimator | object, default = None | Wenn Keine, wird standardmäßig die logistische Regression verwendet. |
categorical_features | string, default = None | Kategorisch, wenn der abgeleitete Datentyp falsch ist_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Verwenden Sie diesen Parameter zur Kategorisierung, wenn davon ausgegangen wird, dass der Typ von numerisch statt algorithmisch ist_features = ['column1']Sie können diesen Typ durch Übergeben überschreiben. |
categorical_imputation | string, default = 'constant' | Wenn in der Kategorie-Feature-Menge ein fehlender Wert gefunden wird, wird ein bestimmtes "Nicht" gefunden._Es wird mit dem Wert "verfügbar" eingegeben. Eine weitere verfügbare Option ist'mode'Geben Sie in den fehlenden Wert mit dem häufigsten Wert im Trainingsdatensatz ein. |
ordinal_features | dictionary, default = None | Ordnungszahl, wenn die Daten hierarchische Merkmale enthalten_Sie müssen mit dem Merkmalsparameter eine andere Codierung durchführen. Die Daten sind'low'、'medium'、'high'Hat eine kategoriale Variable mit dem Wert low< medium <Ordnungszahl, wenn bekannt, dass sie hoch ist_features = { 'column_name' : ['low', 'medium', 'high'] }Kann als übergeben werden. Die Reihenfolge der Liste sollte vom niedrigsten zum höchsten sein. |
high_cardinality_features | string, default = None | Wenn ein Feature mit hoher Kardinalität enthalten ist, kann es auf eine kleinere Ebene komprimiert werden, indem es als Liste von Spaltennamen mit hoher Kardinalität übergeben wird. |
high_cardinality_method | string, default = 'frequency' | Frequenz'frequency'Bei Einstellung auf wird der ursprüngliche Wert der Merkmalsmenge durch die Häufigkeitsverteilung ersetzt und quantifiziert. Eine andere verfügbare Methode ist "Clustering", bei dem die statistischen Attribute der Daten gruppiert und der ursprüngliche Wert des Features durch die Clusterbezeichnung ersetzt werden. |
numeric_features | string, default = None | Wenn der abgeleitete Datentyp falsch ist, numerisch_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Wenn der Typ von als Kategorie und nicht als Zahl abgeleitet wird, verwenden Sie diesen Parameter zur Numerierung_features = ['column1']Es kann durch Übergeben überschrieben werden. |
numeric_imputation | string, default = 'mean' | Wenn in der numerischen Merkmalsmenge ein fehlender Wert gefunden wird, wird der Durchschnittswert der Merkmalsmenge zur Eingabe verwendet. Eine weitere verfügbare Option ist'median'Geben Sie in den Wert mit dem Medianwert des Trainingsdatensatzes ein. |
date_features | string, default = None | Wenn die Daten eine DateTime-Spalte haben, die beim Setup nicht automatisch erkannt wird, Datum_features = 'date_column_name'Sie können diesen Parameter durch Übergeben verwenden. Es kann mit mehreren Datumsspalten arbeiten. Die Datumsspalte wird bei der Modellierung nicht verwendet. Stattdessen wird eine Feature-Extraktion durchgeführt und die Datumsspalte aus dem Dataset entfernt. Wenn die Datumsspalte einen Zeitstempel enthält, werden auch zeitbezogene Funktionen extrahiert. |
ignore_features | string, default = None | Parameter ignorieren, wenn es Funktionen gibt, die für die Modellierung ignoriert werden sollten_Sie können es an Funktionen übergeben. Die abgeleiteten ID- und DateTime-Spalten werden automatisch so festgelegt, dass sie für Modellierungszwecke ignoriert werden. |
normalize | bool, default = False | Bei der Einstellung True wurde der Parameter normalisiert_Der Feature-Space wird mithilfe einer Methode transformiert. Im Allgemeinen arbeiten lineare Algorithmen mit normalisierten Daten besser, die Ergebnisse können jedoch variieren. |
normalize_method | string, default = 'zscore' | Definiert die für die Normalisierung verwendete Methode. Standardmäßig ist die Normalisierungsmethode'zscore'Ist eingestellt auf. Der Standard-Zscore ist z= (x - u) /Berechnet als s. |
minmax | 0 -Skalieren und konvertieren Sie jedes Feature einzeln, sodass es im Bereich von 1 liegt. | |
maxabs | Der maximale Absolutwert jedes Features beträgt 1.Jedes Feature wird einzeln skaliert und konvertiert, sodass es zu 0 wird. Dies ist eine Datenverschiebung/Da es nicht zentriert, zerstört es nicht die Spparität. | |
robust | Jedes Feature wird entsprechend dem Bereich zwischen Quarkplättchen skaliert und konvertiert. Robuste Skalierer liefern häufig bessere Ergebnisse, wenn der Datensatz Ausreißer enthält. | |
transformation | bool, default = False | Bei der Einstellung True wird die Leistungsumwandlung angewendet, damit die Daten regelmäßiger nach Gauß aussehen. Dies ist nützlich für die Modellierung von Problemen im Zusammenhang mit Heterogenität und anderen Situationen, in denen Normalität gewünscht wird. Die optimalen Parameter zur Stabilisierung der Dispersion und zur Minimierung der Dehnung werden nach der wahrscheinlichsten Methode geschätzt. |
transformation_method | string, default = 'yeo-johnson' | Definiert die Konvertierungsmethode. Standardmäßig ist die Konvertierungsmethode'yeo-johnson'Ist eingestellt auf. Als weitere Option'quantile'Es gibt eine Konvertierung. Beide Transformationen transformieren den Funktionsumfang so, dass er einer Gaußschen oder Normalverteilung folgt. Beachten Sie, dass die Divisionstransformation nicht linear ist und die lineare Korrelation zwischen auf derselben Skala gemessenen Variablen verzerren kann. |
handle_unknown_categorical | bool, default = True | Neu, wenn auf True gesetzt/Die unbekannte Kategorieebene der unsichtbaren Daten wird durch die häufigste oder am wenigsten häufige Ebene ersetzt, die in den Trainingsdaten trainiert wird. Diese Methode ist unbekannt_categorical_Im Methodenparameter definiert. |
unknown_categorical_method | string, default = 'least_frequent' | Eine Methode zum Ersetzen einer unbekannten kategorialen Ebene unsichtbarer Daten. Die Methode ist'least_frequent'Oder'most_frequent'Kann auf eingestellt werden. |
pca | bool, default = False | Wenn auf True gesetzt, pca_Die Dimensionsreduktion wird angewendet, um die Daten mithilfe der durch den Methodenparameter definierten Methode in einen Raum mit niedrigeren Dimensionen zu projizieren. Beim überwachten Lernen wird pca im Allgemeinen ausgeführt, wenn es sich um Räume mit hohen Merkmalen handelt oder wenn der Speicher eingeschränkt ist. Beachten Sie, dass nicht alle Datensätze mithilfe linearer PCA-Techniken effizient zerlegt werden können und das Anwenden von PCA zu Informationsverlust führen kann. Daher verschiedene pca, um seine Auswirkungen zu bewerten_Wir empfehlen, dass Sie mehrere Experimente mit Methoden durchführen. |
pca_method | string, default = 'linear' | Das lineare Verfahren verwendet eine Singularitätszerlegung, um eine lineare Dimensionsreduktion durchzuführen. Andere verfügbare Optionen sind: |
kernel | Dimensionsreduzierung mit RVF-Kernel. | |
incremental | Wenn der Datensatz, den Sie zerlegen möchten, zu groß ist, um in den Speicher zu passen'linear'Ersetzen Sie pca. | |
pca_components | int/float, default = 0.99 | pca_Wenn die Komponenten schwebend sind, werden sie als Zielprozentsatz behandelt, um die Informationen beizubehalten. pca_Wenn Komponenten Ganzzahlen sind, werden sie als die Anzahl der Features behandelt, die beibehalten werden sollen. pca_Die Komponenten müssen strengstens kleiner sein als die ursprünglichen Merkmale des Datensatzes. |
ignore_low_variance | bool, default = False | Bei der Einstellung True werden alle Kategoriefeatures mit nicht statistisch signifikanten Abweichungen aus dem Datensatz entfernt. Die Varianz wird unter Verwendung des Verhältnisses eindeutiger Werte zur Anzahl der Proben und des Verhältnisses der häufigsten Werte zur Häufigkeit des zweithöchsten Werts berechnet. |
combine_rare_levels | bool, default = False | Wenn auf True gesetzt, param selten_level_Alle Ebenen von Kategoriemerkmalen unterhalb des durch den Schwellenwert definierten Schwellenwerts werden als eine Ebene zusammengefasst. Es müssen mindestens zwei Stufen unter dem Schwellenwert liegen, damit dies wirksam wird. Selten_level_Der Schwellenwert repräsentiert die Perzentilverteilung der Pegelfrequenz. Im Allgemeinen wird diese Technik angewendet, um spärliche Matrizen aufgrund der großen Anzahl von Ebenen in kategorialen Merkmalen zu begrenzen. |
rare_level_threshold | float, default = 0.1 | Eine Perzentilverteilung, die seltene Kategorien kombiniert. kombinieren_rare_Nur aktiviert, wenn die Ebenen auf True gesetzt sind. |
bin_numeric_features | list, default = None | Wenn eine Liste numerischer Features übergeben wird, werden diese mithilfe von KMeans in kategoriale Features konvertiert. Die Anzahl der Cluster'sturges'Es wird auf der Grundlage des Gesetzes entschieden. Dies ist nur für Gaußsche Daten am besten geeignet und unterschätzt die Anzahl der Fächer für große nicht-Gaußsche Datensätze. |
remove_outliers | bool, default = False | Bei der Einstellung True werden Ausreißer mithilfe der linearen PCA-Dimensionsreduktion mithilfe von Singularitätszerlegungstechniken aus den Trainingsdaten entfernt. |
outliers_threshold | float, default = 0.05 | Prozentsatz der Ausreißer im Datensatz/Prozent ist der Parameter Ausreißer_Sie kann mithilfe des Schwellenwerts definiert werden. Standardmäßig 0.05 wird verwendet. Dies ist 0 für jede Seite des Endes der Verteilung.Dies bedeutet, dass 025 aus den Trainingsdaten gelöscht wird. |
remove_multicollinearity | bool, default = False | Bei Einstellung auf True Multikollinearität_Variablen, die eine höhere Korrelation als der durch den Schwellenwertparameter definierte Schwellenwert aufweisen, werden gelöscht. Wenn die beiden Merkmale eine hohe Korrelation miteinander aufweisen, wird das Merkmal mit der niedrigsten Korrelation mit der Zielvariablen gelöscht. |
multicollinearity_threshold | float, default = 0.9 | Der Schwellenwert, der zum Entfernen der korrelierten Merkmale verwendet wird. entfernen entfernen_Nur aktiviert, wenn Multikollinearität auf True gesetzt ist. |
remove_perfect_collinearity | bool, default = False | Bei Einstellung auf True perfekte Co-Linearität(Korrelation=Funktionsbetrag von 1)Wird aus dem Datensatz entfernt und die beiden Funktionen sind 100%Korrelationしている場合、そのうちの1つがランダムにデータセットから削除されます。 |
create_clusters | bool, default = False | Bei der Einstellung True werden zusätzliche Funktionen erstellt, bei denen jede Instanz einem Cluster zugewiesen wird. Die Anzahl der Cluster ist Calinski-Bestimmt anhand einer Kombination von Harabasz- und Silhouette-Kriterien. |
cluster_iter | int, default = 20 | Die Anzahl der Iterationen, die zum Erstellen des Clusters verwendet wurden. Jede Iteration repräsentiert die Größe des Clusters. erstellen erstellen erstellen_Nur gültig, wenn der Parameter cluster auf True gesetzt ist. |
polynomial_features | bool, default = False | Bei der Einstellung True ist das Polynom in den numerischen Features des Datasets vorhanden._Ein neues Feature wird basierend auf der Kombination aller Polynome bis zu dem durch Gradparameter definierten Grad erstellt. |
polynomial_degree | int, default = 2 | Die Reihenfolge der polymorphen Merkmale. Beispielsweise ist die Eingabeprobe zweidimensional[a, b]In Form von=Die polymorphen Merkmale von 2 sind wie folgt. 1, a, b, a^2, ab, b^2]Es wird. |
trigonometry_features | bool, default = False | Bei der Einstellung True ist das Polynom in den numerischen Merkmalen des Datensatzes vorhanden_Eine neue Merkmalsmenge wird basierend auf der Kombination aller Dreiecksfunktionen bis zu der durch den Gradparameter definierten Reihenfolge erstellt. |
polynomial_threshold | float, default = 0.1 | Der Datensatz enthält polymorphe und dreieckige Merkmale, die innerhalb des definierten Schwellenperzentils der Merkmalsbedeutung liegen, basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation. Die verbleibenden Merkmalsmengen werden gelöscht, bevor die weitere Verarbeitung durchgeführt wird. |
group_features | list or list of list, default = None | Gruppieren, wenn Features enthalten sind, deren Features sich auf das Dataset beziehen_Der Merkmalsparameter kann zur statistischen Merkmalsextraktion verwendet werden. Zum Beispiel numerische Merkmale, in denen Datensätze miteinander in Beziehung stehen ('Col1', 'Col2', 'Col3')Wenn Sie eine Gruppe haben_Durch Übergeben einer Liste mit Spaltennamen unter Features können Sie statistische Informationen wie Mittelwert, Median, Modus und Standardabweichung extrahieren. |
group_names | list, default = None | group_Wenn Features übergeben werden, gruppieren Sie sie als Liste mit Zeichenfolgen_Sie können den Gruppennamen im Parameter names übergeben. Gruppe_Die Länge der Namensliste ist Gruppe_Muss der Länge der Features entsprechen. Wenn die Längen nicht übereinstimmen oder der Name nicht übergeben wird, gruppieren Sie_1, group_Neue Funktionen werden nacheinander benannt, z. B. 2. |
feature_selection | bool, default = False | Wenn True festgelegt ist, wird eine Teilmenge von Features mithilfe einer Kombination verschiedener Techniken zur Sortierbedeutung ausgewählt, z. B. Zufallsstruktur, Adaboost und lineare Korrelation mit Zielvariablen. Die Größe der Teilmenge ist ein Merkmal_selection_Es kommt auf param an. Dies wird üblicherweise verwendet, um den Merkmalsraum einzuschränken und die Modellierungseffizienz zu verbessern. Polynom_Merkmale und Merkmale_Wenn Sie Interaktion verwenden, Funktion_selection_Es wird dringend empfohlen, den Schwellenwertparameter mit einem niedrigeren Wert zu definieren. |
feature_selection_threshold | float, default = 0.8 | Schwellenwert für die Merkmalsauswahl (einschließlich neu erstellter polymorpher Merkmale). Je höher der Wert, desto größer der Funktionsbereich. Merkmale mit unterschiedlichen Werten, insbesondere wenn polymorphe Merkmale und Wechselwirkungen von Merkmal zu Merkmal verwendet werden_selection_Es wird empfohlen, mehrere Versuche mit dem Schwellenwert durchzuführen. Das Einstellen eines sehr niedrigen Werts kann effizient sein, kann jedoch zu einer Unteranpassung führen. |
feature_interaction | bool, default = False | Wenn True festgelegt ist, interagiert (a) mit allen numerischen Variablen im Dataset, einschließlich polynomialer und trigonometrischer Features (falls erstellt).*b) Erstellen Sie dabei eine neue Funktion. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen. |
feature_ratio | bool, default = False | Bei der Einstellung True wird das Verhältnis aller numerischen Variablen im Datensatz (a/b) Berechnen Sie, um ein neues Feature zu erstellen. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen. |
interaction_threshold | bool, default = 0.01 | polynomial_Ähnlich wie beim Schwellenwert wird es verwendet, um eine neu erstellte, spärliche Matrix von Features durch Interaktion zu komprimieren. Features, deren Bedeutung basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation innerhalb der definierten Schwellenperzentile liegt, werden im Datensatz gespeichert. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht. |
fix_imbalance | bool, default = False | Wenn das Dataset eine ungleichmäßige Verteilung der Zielklassen aufweist, beheben Sie dies_Sie kann mit dem Ungleichgewichtsparameter geändert werden. Bei der Einstellung True ist SMOTE standardmäßig aktiviert(Synthetic Minority Over-sampling Technique)Wird angewendet, um einen zusammengesetzten Datenpunkt für die Minderheitsklasse zu erstellen. |
fix_imbalance_method | obj, default = None | fix_Setzen Sie das Ungleichgewicht auf True und beheben Sie es_imbalance_Wenn die Methode auf Keine gesetzt ist, werden Minderheitenklassen während der Kreuzvalidierung standardmäßig überabgetastet.'smote'Wird angewandt. Dieser Parameter ist'fit_resample'Unterstützt Methoden'imblearn'Jedes Modul kann akzeptiert werden. |
data_split_shuffle | bool, default = True | Auf False setzen, um zu verhindern, dass Zeilen beim Aufteilen von Daten gemischt werden. |
folds_shuffle | bool, default = False | Auf False setzen, um zu verhindern, dass Zeilen bei Verwendung der Kreuzvalidierung gemischt werden. |
n_jobs | int, default = -1 | Gibt die Anzahl der Jobs an, die parallel ausgeführt werden sollen(Für Funktionen, die die Parallelverarbeitung unterstützen)-1 bedeutet, alle Prozessoren zu verwenden. Um alle Funktionen auf einem einzelnen Prozessor auszuführen, n_Setzen Sie Jobs auf Keine. |
html | bool, default = True | Auf False setzen, um die Laufzeitanzeige des Monitors zu deaktivieren. Wenn Sie eine Umgebung verwenden, die HTML nicht unterstützt, müssen Sie sie auf False setzen. |
session_id | int, default = None | Wenn Keine, wird ein zufälliger Startwert generiert und an das Informationsraster zurückgegeben. Alle Funktionen, die dann während des Experiments verwendet werden, erhalten dann eine eindeutige Nummer als Startwert. Dies kann zur Reproduzierbarkeit nach dem gesamten Experiment verwendet werden. |
log_experiment | bool, default = False | Bei der Einstellung True werden alle Metriken und Parameter auf dem MLFlow-Server aufgezeichnet. |
experiment_name | str, default = None | Der Name des zu protokollierenden Experiments. Wenn auf Keine gesetzt, standardmäßig'clf'Wird als Alias für den Experimentnamen verwendet. |
log_plots | bool, default = False | Wenn True festgelegt ist, wird ein bestimmtes Diagramm als PNG-Datei in MLflow aufgezeichnet. Der Standardwert ist False. |
log_profile | bool, default = False | Wenn True festgelegt ist, wird das Datenprofil auch in MLflow als HTML-Datei aufgezeichnet. Der Standardwert ist False. |
log_data | bool, default = False | Bei der Einstellung True werden Trainings- und Testdaten als CSV aufgezeichnet. |
silent | bool, default = False | Bei der Einstellung True ist keine Bestätigung des Datentyps erforderlich. Die gesamte Vorverarbeitung wird unter der Annahme eines automatisch abgeleiteten Datentyps durchgeführt. Die direkte Verwendung außerhalb etablierter Pipelines wird nicht empfohlen. |
verbose | Boolean, default = True | Wenn verbose auf False gesetzt ist, wird das Informationsraster nicht gedruckt. |
profile | bool, default = False | Bei true wird das Datenprofil für die explorative Datenanalyse in einem interaktiven HTML-Bericht angezeigt. |
Parameter | Erläuterung | Einzelheiten |
---|---|---|
data | {array-like, sparse matrix} | Shape (n_samples, n_features)Wo n_Proben ist die Anzahl der Proben, n_Features ist die Anzahl der Features. |
target | string | Der Spaltenname, der als Zeichenfolge übergeben werden soll. |
train_size | float, default = 0.7 | Die Größe des Trainingssatzes. Standardmäßig 70 Daten%Wird zur Schulung und Überprüfung verwendet. Testen Sie den Rest der Daten/Wird für Holdout-Sets verwendet. |
sampling | bool, default = True | Die Stichprobengröße beträgt 25,Über 000 Stichproben hinaus erstellt Pycaret Basisschätzer für verschiedene Stichprobengrößen aus dem Originaldatensatz. Dies gibt Leistungsdiagramme von R2-Werten auf verschiedenen Stichprobenebenen zurück, um eine geeignete Stichprobengröße für die Modellierung zu ermitteln. Als nächstes müssen Sie die gewünschte Stichprobengröße für das Training und die Validierung in der Pycaret-Umgebung eingeben. Probe eingeben_finalisieren, wenn die Größe kleiner als 1 ist_model()Verbleibender Datensatz (1) nur beim Aufruf-Probe) wird verwendet, um das Modell anzupassen. |
sample_estimator | object, default = None | Wenn keine vorhanden ist, wird standardmäßig die lineare Regression verwendet. |
categorical_features | string, default = None | Kategorisch, wenn der abgeleitete Datentyp falsch ist_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Verwenden Sie diesen Parameter zur Kategorisierung, wenn davon ausgegangen wird, dass der Typ von numerisch statt algorithmisch ist_features = ['column1']Sie können diesen Typ durch Übergeben überschreiben. |
categorical_imputation | string, default = 'constant' | Wenn in der Kategorie-Feature-Menge ein fehlender Wert gefunden wird, wird ein bestimmtes "Nicht" gefunden._Es wird mit dem Wert "verfügbar" eingegeben. Eine weitere verfügbare Option ist'mode'Geben Sie in den fehlenden Wert mit dem häufigsten Wert im Trainingsdatensatz ein. |
ordinal_features | dictionary, default = None | Ordnungszahl, wenn die Daten hierarchische Merkmale enthalten_Sie müssen mit dem Merkmalsparameter eine andere Codierung durchführen. Die Daten sind'low'、'medium'、'high'Hat eine kategoriale Variable mit dem Wert low< medium <Ordnungszahl, wenn bekannt, dass sie hoch ist_features = { 'column_name' : ['low', 'medium', 'high'] }Kann als übergeben werden. Die Reihenfolge der Liste sollte vom niedrigsten zum höchsten sein. |
high_cardinality_features | string, default = None | Wenn Ihre Daten Merkmale mit hoher Kardinalität enthalten, können Sie sie auf eine niedrigere Ebene reduzieren, indem Sie sie als Liste mit Spaltennamen mit hoher Kardinalität übergeben. Die Feature-Komprimierung ist sehr hoch_cardinality_Verwenden Sie die in Methode definierte Methode. |
high_cardinality_method | string, default = 'frequency' | Frequenz'frequency'Bei Einstellung auf wird der ursprüngliche Wert der Merkmalsmenge durch die Häufigkeitsverteilung ersetzt und quantifiziert. Eine andere verfügbare Methode ist "Clustering", bei dem die statistischen Attribute der Daten gruppiert und der ursprüngliche Wert des Features durch die Clusterbezeichnung ersetzt werden. |
numeric_features | string, default = None | Wenn der abgeleitete Datentyp falsch ist, numerisch_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Wenn der Typ von als Kategorie und nicht als Zahl abgeleitet wird, verwenden Sie diesen Parameter zur Numerierung_features = ['column1']Es kann durch Übergeben überschrieben werden. |
numeric_imputation | string, default = 'mean' | Wenn in der numerischen Merkmalsmenge ein fehlender Wert gefunden wird, wird der Durchschnittswert der Merkmalsmenge zur Eingabe verwendet. Eine weitere verfügbare Option ist'median'Geben Sie in den Wert mit dem Medianwert des Trainingsdatensatzes ein. |
date_features | string, default = None | Wenn die Daten eine DateTime-Spalte haben, die beim Setup nicht automatisch erkannt wird, Datum_features = 'date_column_name'Sie können diesen Parameter durch Übergeben verwenden. Es kann mit mehreren Datumsspalten arbeiten. Die Datumsspalte wird bei der Modellierung nicht verwendet. Stattdessen wird eine Feature-Extraktion durchgeführt und die Datumsspalte aus dem Dataset entfernt. Wenn die Datumsspalte einen Zeitstempel enthält, werden auch zeitbezogene Funktionen extrahiert. |
ignore_features | string, default = None | Parameter ignorieren, wenn es Funktionen gibt, die für die Modellierung ignoriert werden sollten_Sie können es an Funktionen übergeben. Die abgeleiteten ID- und DateTime-Spalten werden automatisch so festgelegt, dass sie für Modellierungszwecke ignoriert werden. |
normalize | bool, default = False | Bei der Einstellung True wurde der Parameter normalisiert_Der Feature-Space wird mithilfe einer Methode transformiert. Im Allgemeinen arbeiten lineare Algorithmen mit normalisierten Daten besser, die Ergebnisse können jedoch variieren. |
normalize_method | string, default = 'zscore' | Definiert die für die Normalisierung verwendete Methode. Standardmäßig ist die Normalisierungsmethode'zscore'Ist eingestellt auf. Der Standard-Zscore ist z= (x - u) /Berechnet als s. |
minmax | minmax' : 0 -Skalieren und konvertieren Sie jedes Feature einzeln, sodass es im Bereich von 1 liegt. | |
maxabs | maxabs':Der maximale Absolutwert jedes Features beträgt 1.Jedes Feature wird einzeln skaliert und konvertiert, sodass es zu 0 wird. Dies ist eine Datenverschiebung/Da es nicht zentriert, zerstört es nicht die Spparität. | |
robust | robust':Jedes Feature wird entsprechend dem Bereich zwischen Quarkplättchen skaliert und konvertiert. Robuste Skalierer liefern häufig bessere Ergebnisse, wenn der Datensatz Ausreißer enthält. | |
transformation | bool, default = False | Setzen Sie diesen Wert auf True, um die Daten normaler zu machen/Die Multiplikatorumwandlung wird angewendet, um sie Gaußsch zu machen. Dies ist nützlich für die Modellierung von Problemen im Zusammenhang mit Heterogenität und anderen Situationen, in denen Normalität gewünscht wird. Die optimalen Parameter zur Stabilisierung der Dispersion und zur Minimierung der Dehnung werden nach der wahrscheinlichsten Methode geschätzt. |
transformation_method | string, default = 'yeo-johnson' | Definiert die Konvertierungsmethode. Standardmäßig ist die Konvertierungsmethode'yeo-johnson'Ist eingestellt auf. Als weitere Option'quantile'Es gibt eine Konvertierung. Beide Transformationen transformieren den Funktionsumfang so, dass er einer Gaußschen oder Normalverteilung folgt. Beachten Sie, dass die Divisionstransformation nicht linear ist und die lineare Korrelation zwischen auf derselben Skala gemessenen Variablen verzerren kann. |
handle_unknown_categorical | bool, default = True | Neu, wenn auf True gesetzt/Die unbekannte Kategorieebene der unsichtbaren Daten wird durch die häufigste oder am wenigsten häufige Ebene ersetzt, die in den Trainingsdaten trainiert wird. Diese Methode ist unbekannt_categorical_Im Methodenparameter definiert. |
unknown_categorical_method | string, default = 'least_frequent' | Eine Methode zum Ersetzen einer unbekannten kategorialen Ebene unsichtbarer Daten. In der Methode'least_frequent'Oder'most_frequent'Kann eingestellt werden. |
pca | bool, default = False | Wenn auf True gesetzt, pca_Die Dimensionsreduktion wird angewendet, um die Daten mithilfe der durch den Methodenparameter definierten Methode in einen Raum mit niedrigeren Dimensionen zu projizieren. Beim überwachten Lernen wird pca im Allgemeinen ausgeführt, wenn es sich um Räume mit hohen Merkmalen handelt oder wenn der Speicher eingeschränkt ist. Beachten Sie, dass nicht alle Datensätze mithilfe linearer PCA-Techniken effizient zerlegt werden können und das Anwenden von PCA zu Informationsverlust führen kann. Daher verschiedene pca, um seine Auswirkungen zu bewerten_Wir empfehlen, dass Sie mehrere Experimente mit Methoden durchführen. |
pca_method | string, default = 'linear' | Das lineare Verfahren verwendet eine Singularitätszerlegung, um eine lineare Dimensionsreduktion durchzuführen. Andere verfügbare Optionen sind: |
kernel | Dimensionsreduzierung mit RVF-Kernel. | |
incremental | Wenn der Datensatz, den Sie zerlegen möchten, zu groß ist, um in den Speicher zu passen'linear'Ersetzen Sie pca. | |
pca_components | int/float, default = 0.99 | pca_Wenn die Komponenten schwebend sind, werden sie als Zielprozentsatz behandelt, um die Informationen beizubehalten. pca_Wenn Komponenten Ganzzahlen sind, werden sie als die Anzahl der Features behandelt, die beibehalten werden sollen. pca_Die Komponenten müssen strengstens kleiner sein als die ursprünglichen Merkmale des Datensatzes. |
ignore_low_variance | bool, default = False | Bei der Einstellung True werden alle Kategoriefeatures mit nicht statistisch signifikanten Abweichungen aus dem Datensatz entfernt. Die Varianz wird unter Verwendung des Verhältnisses eindeutiger Werte zur Anzahl der Proben und des Verhältnisses der häufigsten Werte zur Häufigkeit des zweithöchsten Werts berechnet. |
combine_rare_levels | bool, default = False | Wenn auf True gesetzt, param selten_level_Alle Ebenen von Kategoriemerkmalen unterhalb des durch den Schwellenwert definierten Schwellenwerts werden als eine Ebene zusammengefasst. Es müssen mindestens zwei Stufen unter dem Schwellenwert liegen, damit dies wirksam wird. Selten_level_Der Schwellenwert repräsentiert die Perzentilverteilung der Pegelfrequenz. Im Allgemeinen wird diese Technik angewendet, um spärliche Matrizen aufgrund der großen Anzahl von Ebenen in kategorialen Merkmalen zu begrenzen. |
rare_level_threshold | float, default = 0.1 | Eine Perzentilverteilung, die seltene Kategorien kombiniert. kombinieren_rare_Nur aktiviert, wenn die Ebenen auf True gesetzt sind. |
bin_numeric_features | list, default = None | Wenn eine Liste numerischer Features übergeben wird, werden diese mithilfe von KMeans in kategoriale Features konvertiert. Die Anzahl der Cluster'sturges'Es wird auf der Grundlage des Gesetzes entschieden. Dies ist nur für Gaußsche Daten am besten geeignet und unterschätzt die Anzahl der Fächer für große nicht-Gaußsche Datensätze. |
remove_outliers | bool, default = False | Bei der Einstellung True werden Ausreißer mithilfe der linearen PCA-Dimensionsreduktion mithilfe von Singularitätszerlegungstechniken aus den Trainingsdaten entfernt. |
outliers_threshold | float, default = 0.05 | Prozentsatz der Ausreißer im Datensatz/Prozent ist der Parameter Ausreißer_Sie kann mithilfe des Schwellenwerts definiert werden. Standardmäßig 0.05 wird verwendet. Dies ist 0 für jede Seite des Endes der Verteilung.Dies bedeutet, dass 025 aus den Trainingsdaten gelöscht wird. |
remove_multicollinearity | bool, default = False | Bei Einstellung auf True Multikollinearität_Variablen, die eine höhere Korrelation als der durch den Schwellenwertparameter definierte Schwellenwert aufweisen, werden gelöscht. Wenn die beiden Merkmale eine hohe Korrelation miteinander aufweisen, wird das Merkmal mit der niedrigsten Korrelation mit der Zielvariablen gelöscht. |
multicollinearity_threshold | float, default = 0.9 | Der Schwellenwert, der zum Entfernen der korrelierten Merkmale verwendet wird. entfernen entfernen_Nur aktiviert, wenn Multikollinearität auf True gesetzt ist. |
remove_perfect_collinearity | bool, default = False | Bei Einstellung auf True perfekte Co-Linearität(Korrelation=Funktionsbetrag von 1)Wird aus dem Datensatz entfernt und die beiden Funktionen sind 100%Korrelationしている場合、そのうちの1つがランダムにデータセットから削除されます。 |
create_clusters | bool, default = False | Bei der Einstellung True werden zusätzliche Funktionen erstellt, bei denen jede Instanz einem Cluster zugewiesen wird. Die Anzahl der Cluster ist Calinski-Bestimmt anhand einer Kombination von Harabasz- und Silhouette-Kriterien. |
cluster_iter | int, default = 20 | Die Anzahl der Iterationen, die zum Erstellen des Clusters verwendet wurden. Jede Iteration repräsentiert die Größe des Clusters. erstellen erstellen erstellen_Nur gültig, wenn der Parameter cluster auf True gesetzt ist. |
polynomial_features | bool, default = False | Bei der Einstellung True ist das Polynom in den numerischen Features des Datasets vorhanden._Ein neues Feature wird basierend auf der Kombination aller Polynome bis zu dem durch Gradparameter definierten Grad erstellt. |
polynomial_degree | int, default = 2 | Die Reihenfolge der polymorphen Merkmale. Beispielsweise ist die Eingabeprobe zweidimensional[a, b]In Form von=Die polymorphen Merkmale von 2 sind wie folgt. 1, a, b, a^2, ab, b^2]Es wird. |
trigonometry_features | bool, default = False | Bei der Einstellung True ist das Polynom in den numerischen Merkmalen des Datensatzes vorhanden_Eine neue Merkmalsmenge wird basierend auf der Kombination aller Dreiecksfunktionen bis zu der durch den Gradparameter definierten Reihenfolge erstellt. |
polynomial_threshold | float, default = 0.1 | Es wird verwendet, um eine spärliche Matrix aus polymorphen Merkmalen und dreieckigen Merkmalmerkmalen zu komprimieren. Polygonale und dreieckige Funktionsmerkmale, deren Bedeutung von Merkmalen, die auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation basieren, innerhalb des definierten Schwellenperzentils liegen, bleiben im Datensatz erhalten. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht. |
group_features | list or list of list, default = None | Gruppieren, wenn Features enthalten sind, deren Features sich auf das Dataset beziehen_featuresparam kann zur statistischen Merkmalsextraktion verwendet werden. Zum Beispiel numerische Merkmale, in denen Datensätze miteinander in Beziehung stehen ('Col1', 'Col2', 'Col3')Wenn Sie eine Gruppe haben_Durch Übergeben einer Liste mit Spaltennamen unter Features können Sie statistische Informationen wie Mittelwert, Median, Modus und Standardabweichung extrahieren. |
group_names | list, default = None | group_Wenn Features übergeben werden, gruppieren Sie sie als Liste mit Zeichenfolgen_Sie können den Gruppennamen im Parameter names übergeben. Gruppe_Die Länge der Namensliste ist Gruppe_Muss der Länge der Features entsprechen. Wenn die Längen nicht übereinstimmen oder der Name nicht übergeben wird, gruppieren Sie_1, group_Neue Funktionen werden nacheinander benannt, z. B. 2. |
feature_selection | bool, default = False | Wenn True festgelegt ist, wird eine Teilmenge von Features mithilfe einer Kombination verschiedener Techniken zur Sortierbedeutung ausgewählt, z. B. Zufallsstruktur, Adaboost und lineare Korrelation mit Zielvariablen. Die Größe der Teilmenge ist ein Merkmal_selection_Es kommt auf param an. Dies wird üblicherweise verwendet, um den Merkmalsraum einzuschränken und die Modellierungseffizienz zu verbessern. Polynom_Merkmale und Merkmale_Wenn Sie Interaktion verwenden, Funktion_selection_Es wird dringend empfohlen, den Schwellenwertparameter mit einem niedrigeren Wert zu definieren. |
feature_selection_threshold | float, default = 0.8 | Schwellenwert für die Merkmalsauswahl (einschließlich neu erstellter polymorpher Merkmale). Je größer der Wert, desto mehr Funktionen. Merkmale mit unterschiedlichen Werten, insbesondere bei Verwendung polymorpher Merkmale und Interaktionen zwischen Merkmalen_selection_Wir empfehlen, dass Sie den Schwellenwert mehrmals verwenden. Das Einstellen eines sehr niedrigen Werts ist effizient, kann jedoch zu einer Unteranpassung führen. |
feature_interaction | bool, default = False | Wenn True festgelegt ist, interagiert (a) mit allen numerischen Variablen im Dataset, einschließlich polynomialer und trigonometrischer Features (falls erstellt).*b) Erstellen Sie dabei eine neue Funktion. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen. |
feature_ratio | bool, default = False | Bei der Einstellung True wird das Verhältnis aller numerischen Variablen im Datensatz (a/b) Berechnen Sie, um ein neues Feature zu erstellen. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen. |
interaction_threshold | bool, default = 0.01 | polynomial_Ähnlich wie beim Schwellenwert wird es verwendet, um eine neu erstellte, spärliche Matrix von Features durch Interaktion zu komprimieren. Features, deren Bedeutung basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation innerhalb der definierten Schwellenperzentile liegt, werden im Datensatz gespeichert. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht. |
transform_target | bool, default = False | Wenn auf True gesetzt, transformieren Sie_target_Konvertiert die Zielvariable wie im Methodenparameter definiert. Die Zieltransformation wird getrennt von der Feature-Transformation angewendet. |
transform_target_method | string, default = 'box-cox' | Box-cox'und'yeo-johnson'Das Gesetz wird unterstützt. Box-Cox verlangt, dass die Eingabedaten genau positiv sind, aber Yeo-Johnson unterstützt sowohl positive als auch negative Daten. verwandeln_target_Methode ist'box-cox'Und wenn die Zielvariable einen negativen Wert enthält, die Methode intern, um Ausnahmen zu vermeiden'yeo-johnson'Ist gezwungen zu. |
data_split_shuffle | bool, default = True | Auf False setzen, um zu verhindern, dass Zeilen beim Aufteilen von Daten gemischt werden. |
folds_shuffle | bool, default = True | Auf False setzen, um zu verhindern, dass Zeilen bei Verwendung der Kreuzvalidierung gemischt werden. |
n_jobs | int, default = -1 | Gibt die Anzahl der Jobs an, die parallel ausgeführt werden sollen(Für Funktionen, die die Parallelverarbeitung unterstützen)-1 bedeutet, alle Prozessoren zu verwenden. Um alle Funktionen auf einem einzelnen Prozessor auszuführen, n_Setzen Sie Jobs auf Keine. |
html | bool, default = True | Auf False setzen, um die Laufzeitanzeige des Monitors zu deaktivieren. Wenn Sie eine Umgebung verwenden, die HTML nicht unterstützt, müssen Sie sie auf False setzen. |
session_id | int, default = None | Wenn Keine, wird ein zufälliger Startwert generiert und an das Informationsraster zurückgegeben. Alle Funktionen, die dann während des Experiments verwendet werden, erhalten dann eine eindeutige Nummer als Startwert. Dies kann zur Reproduzierbarkeit nach dem gesamten Experiment verwendet werden. |
log_experiment | bool, default = False | Bei der Einstellung True werden alle Metriken und Parameter auf dem MLFlow-Server aufgezeichnet. |
experiment_name | str, default = None | Der Name des zu protokollierenden Experiments. Wenn auf Keine gesetzt, standardmäßig'reg'Wird als Alias für den Experimentnamen verwendet. |
log_plots | bool, default = False | Wenn True festgelegt ist, wird ein bestimmtes Diagramm als PNG-Datei in MLflow aufgezeichnet. Der Standardwert ist False. |
log_profile | bool, default = False | Wenn True festgelegt ist, wird das Datenprofil auch in MLflow als HTML-Datei aufgezeichnet. Der Standardwert ist False. |
log_data | bool, default = False | Bei der Einstellung True werden Trainings- und Testdaten als CSV aufgezeichnet. |
silent | bool, default = False | Bei der Einstellung True ist keine Bestätigung des Datentyps erforderlich. Die gesamte Vorverarbeitung wird unter der Annahme eines automatisch abgeleiteten Datentyps durchgeführt. Die direkte Verwendung außerhalb etablierter Pipelines wird nicht empfohlen. |
verbose | Boolean, default = True | Wenn verbose auf False gesetzt ist, wird das Informationsraster nicht gedruckt. |
profile | bool, default = False | Bei true wird das Datenprofil für die explorative Datenanalyse in einem interaktiven HTML-Bericht angezeigt. |
Recommended Posts