Argumente der Pycaret-Setup-Funktion

PyCaret-Beamter: Home - PyCaret PyCaret-Handbuch: PyCaret-Handbuch - PyCaret PyCaret Github：pycaret/pycaret: An open source, low-code machine learning library in Python

Zweck
Da es viele Argumente für die Setup-Funktion gibt, habe ich sie überprüft und übersetzt (DeepL-Übersetzung).
Fordern Sie auf, zu sehen, was Sie mit der Setup-Funktion tun können.

Klassifizierung Klassifizierung PyCaret2.0

Parameter	Erläuterung	Einzelheiten
data	{array-like, sparse matrix}	Shape (n_samples, n_features)Wo n_Proben ist die Anzahl der Proben, n_Features ist die Anzahl der Features.
target	string	Der Spaltenname, der als Zeichenfolge übergeben werden soll. Die Zielvariable kann binär oder mehrklassig sein. Bei Zielen mit mehreren Klassen werden alle Schätzungen in den OneVs Rest-Klassifizierer eingeschlossen.
train_size	float, default = 0.7	Die Größe des Trainingssatzes. Standardmäßig 70 Daten%Wird zur Schulung und Überprüfung verwendet. Testen Sie den Rest der Daten/Wird für Holdout-Sets verwendet.
sampling	bool, default = True	Die Stichprobengröße beträgt 25,Über 000 Stichproben hinaus erstellt Pycaret Basisschätzer für verschiedene Stichprobengrößen aus dem Originaldatensatz. Es werden Leistungsdiagramme von AUC-, Genauigkeits-, Rückruf-, Präzisions-, Kappa- und F1-Werten auf verschiedenen Stichprobenebenen zurückgegeben, um die geeignete Stichprobengröße für die Modellierung zu bestimmen. Anschließend müssen Sie die gewünschte Stichprobengröße für das Training und die Validierung in einer Piecaret-Umgebung eingeben. Probe eingeben_finalisieren, wenn die Größe kleiner als 1 ist_model()Verbleibender Datensatz (1) nur beim Aufruf-Probe) wird verwendet, um das Modell anzupassen.
sample_estimator	object, default = None	Wenn Keine, wird standardmäßig die logistische Regression verwendet.
categorical_features	string, default = None	Kategorisch, wenn der abgeleitete Datentyp falsch ist_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Verwenden Sie diesen Parameter zur Kategorisierung, wenn davon ausgegangen wird, dass der Typ von numerisch statt algorithmisch ist_features = ['column1']Sie können diesen Typ durch Übergeben überschreiben.
categorical_imputation	string, default = 'constant'	Wenn in der Kategorie-Feature-Menge ein fehlender Wert gefunden wird, wird ein bestimmtes "Nicht" gefunden._Es wird mit dem Wert "verfügbar" eingegeben. Eine weitere verfügbare Option ist'mode'Geben Sie in den fehlenden Wert mit dem häufigsten Wert im Trainingsdatensatz ein.
ordinal_features	dictionary, default = None	Ordnungszahl, wenn die Daten hierarchische Merkmale enthalten_Sie müssen mit dem Merkmalsparameter eine andere Codierung durchführen. Die Daten sind'low'、'medium'、'high'Hat eine kategoriale Variable mit dem Wert low< medium <Ordnungszahl, wenn bekannt, dass sie hoch ist_features = { 'column_name' : ['low', 'medium', 'high'] }Kann als übergeben werden. Die Reihenfolge der Liste sollte vom niedrigsten zum höchsten sein.
high_cardinality_features	string, default = None	Wenn ein Feature mit hoher Kardinalität enthalten ist, kann es auf eine kleinere Ebene komprimiert werden, indem es als Liste von Spaltennamen mit hoher Kardinalität übergeben wird.
high_cardinality_method	string, default = 'frequency'	Frequenz'frequency'Bei Einstellung auf wird der ursprüngliche Wert der Merkmalsmenge durch die Häufigkeitsverteilung ersetzt und quantifiziert. Eine andere verfügbare Methode ist "Clustering", bei dem die statistischen Attribute der Daten gruppiert und der ursprüngliche Wert des Features durch die Clusterbezeichnung ersetzt werden.
numeric_features	string, default = None	Wenn der abgeleitete Datentyp falsch ist, numerisch_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Wenn der Typ von als Kategorie und nicht als Zahl abgeleitet wird, verwenden Sie diesen Parameter zur Numerierung_features = ['column1']Es kann durch Übergeben überschrieben werden.
numeric_imputation	string, default = 'mean'	Wenn in der numerischen Merkmalsmenge ein fehlender Wert gefunden wird, wird der Durchschnittswert der Merkmalsmenge zur Eingabe verwendet. Eine weitere verfügbare Option ist'median'Geben Sie in den Wert mit dem Medianwert des Trainingsdatensatzes ein.
date_features	string, default = None	Wenn die Daten eine DateTime-Spalte haben, die beim Setup nicht automatisch erkannt wird, Datum_features = 'date_column_name'Sie können diesen Parameter durch Übergeben verwenden. Es kann mit mehreren Datumsspalten arbeiten. Die Datumsspalte wird bei der Modellierung nicht verwendet. Stattdessen wird eine Feature-Extraktion durchgeführt und die Datumsspalte aus dem Dataset entfernt. Wenn die Datumsspalte einen Zeitstempel enthält, werden auch zeitbezogene Funktionen extrahiert.
ignore_features	string, default = None	Parameter ignorieren, wenn es Funktionen gibt, die für die Modellierung ignoriert werden sollten_Sie können es an Funktionen übergeben. Die abgeleiteten ID- und DateTime-Spalten werden automatisch so festgelegt, dass sie für Modellierungszwecke ignoriert werden.
normalize	bool, default = False	Bei der Einstellung True wurde der Parameter normalisiert_Der Feature-Space wird mithilfe einer Methode transformiert. Im Allgemeinen arbeiten lineare Algorithmen mit normalisierten Daten besser, die Ergebnisse können jedoch variieren.
normalize_method	string, default = 'zscore'	Definiert die für die Normalisierung verwendete Methode. Standardmäßig ist die Normalisierungsmethode'zscore'Ist eingestellt auf. Der Standard-Zscore ist z= (x - u) /Berechnet als s.
	minmax	0 -Skalieren und konvertieren Sie jedes Feature einzeln, sodass es im Bereich von 1 liegt.
	maxabs	Der maximale Absolutwert jedes Features beträgt 1.Jedes Feature wird einzeln skaliert und konvertiert, sodass es zu 0 wird. Dies ist eine Datenverschiebung/Da es nicht zentriert, zerstört es nicht die Spparität.
	robust	Jedes Feature wird entsprechend dem Bereich zwischen Quarkplättchen skaliert und konvertiert. Robuste Skalierer liefern häufig bessere Ergebnisse, wenn der Datensatz Ausreißer enthält.
transformation	bool, default = False	Bei der Einstellung True wird die Leistungsumwandlung angewendet, damit die Daten regelmäßiger nach Gauß aussehen. Dies ist nützlich für die Modellierung von Problemen im Zusammenhang mit Heterogenität und anderen Situationen, in denen Normalität gewünscht wird. Die optimalen Parameter zur Stabilisierung der Dispersion und zur Minimierung der Dehnung werden nach der wahrscheinlichsten Methode geschätzt.
transformation_method	string, default = 'yeo-johnson'	Definiert die Konvertierungsmethode. Standardmäßig ist die Konvertierungsmethode'yeo-johnson'Ist eingestellt auf. Als weitere Option'quantile'Es gibt eine Konvertierung. Beide Transformationen transformieren den Funktionsumfang so, dass er einer Gaußschen oder Normalverteilung folgt. Beachten Sie, dass die Divisionstransformation nicht linear ist und die lineare Korrelation zwischen auf derselben Skala gemessenen Variablen verzerren kann.
handle_unknown_categorical	bool, default = True	Neu, wenn auf True gesetzt/Die unbekannte Kategorieebene der unsichtbaren Daten wird durch die häufigste oder am wenigsten häufige Ebene ersetzt, die in den Trainingsdaten trainiert wird. Diese Methode ist unbekannt_categorical_Im Methodenparameter definiert.
unknown_categorical_method	string, default = 'least_frequent'	Eine Methode zum Ersetzen einer unbekannten kategorialen Ebene unsichtbarer Daten. Die Methode ist'least_frequent'Oder'most_frequent'Kann auf eingestellt werden.
pca	bool, default = False	Wenn auf True gesetzt, pca_Die Dimensionsreduktion wird angewendet, um die Daten mithilfe der durch den Methodenparameter definierten Methode in einen Raum mit niedrigeren Dimensionen zu projizieren. Beim überwachten Lernen wird pca im Allgemeinen ausgeführt, wenn es sich um Räume mit hohen Merkmalen handelt oder wenn der Speicher eingeschränkt ist. Beachten Sie, dass nicht alle Datensätze mithilfe linearer PCA-Techniken effizient zerlegt werden können und das Anwenden von PCA zu Informationsverlust führen kann. Daher verschiedene pca, um seine Auswirkungen zu bewerten_Wir empfehlen, dass Sie mehrere Experimente mit Methoden durchführen.
pca_method	string, default = 'linear'	Das lineare Verfahren verwendet eine Singularitätszerlegung, um eine lineare Dimensionsreduktion durchzuführen. Andere verfügbare Optionen sind:
	kernel	Dimensionsreduzierung mit RVF-Kernel.
	incremental	Wenn der Datensatz, den Sie zerlegen möchten, zu groß ist, um in den Speicher zu passen'linear'Ersetzen Sie pca.
pca_components	int/float, default = 0.99	pca_Wenn die Komponenten schwebend sind, werden sie als Zielprozentsatz behandelt, um die Informationen beizubehalten. pca_Wenn Komponenten Ganzzahlen sind, werden sie als die Anzahl der Features behandelt, die beibehalten werden sollen. pca_Die Komponenten müssen strengstens kleiner sein als die ursprünglichen Merkmale des Datensatzes.
ignore_low_variance	bool, default = False	Bei der Einstellung True werden alle Kategoriefeatures mit nicht statistisch signifikanten Abweichungen aus dem Datensatz entfernt. Die Varianz wird unter Verwendung des Verhältnisses eindeutiger Werte zur Anzahl der Proben und des Verhältnisses der häufigsten Werte zur Häufigkeit des zweithöchsten Werts berechnet.
combine_rare_levels	bool, default = False	Wenn auf True gesetzt, param selten_level_Alle Ebenen von Kategoriemerkmalen unterhalb des durch den Schwellenwert definierten Schwellenwerts werden als eine Ebene zusammengefasst. Es müssen mindestens zwei Stufen unter dem Schwellenwert liegen, damit dies wirksam wird. Selten_level_Der Schwellenwert repräsentiert die Perzentilverteilung der Pegelfrequenz. Im Allgemeinen wird diese Technik angewendet, um spärliche Matrizen aufgrund der großen Anzahl von Ebenen in kategorialen Merkmalen zu begrenzen.
rare_level_threshold	float, default = 0.1	Eine Perzentilverteilung, die seltene Kategorien kombiniert. kombinieren_rare_Nur aktiviert, wenn die Ebenen auf True gesetzt sind.
bin_numeric_features	list, default = None	Wenn eine Liste numerischer Features übergeben wird, werden diese mithilfe von KMeans in kategoriale Features konvertiert. Die Anzahl der Cluster'sturges'Es wird auf der Grundlage des Gesetzes entschieden. Dies ist nur für Gaußsche Daten am besten geeignet und unterschätzt die Anzahl der Fächer für große nicht-Gaußsche Datensätze.
remove_outliers	bool, default = False	Bei der Einstellung True werden Ausreißer mithilfe der linearen PCA-Dimensionsreduktion mithilfe von Singularitätszerlegungstechniken aus den Trainingsdaten entfernt.
outliers_threshold	float, default = 0.05	Prozentsatz der Ausreißer im Datensatz/Prozent ist der Parameter Ausreißer_Sie kann mithilfe des Schwellenwerts definiert werden. Standardmäßig 0.05 wird verwendet. Dies ist 0 für jede Seite des Endes der Verteilung.Dies bedeutet, dass 025 aus den Trainingsdaten gelöscht wird.
remove_multicollinearity	bool, default = False	Bei Einstellung auf True Multikollinearität_Variablen, die eine höhere Korrelation als der durch den Schwellenwertparameter definierte Schwellenwert aufweisen, werden gelöscht. Wenn die beiden Merkmale eine hohe Korrelation miteinander aufweisen, wird das Merkmal mit der niedrigsten Korrelation mit der Zielvariablen gelöscht.
multicollinearity_threshold	float, default = 0.9	Der Schwellenwert, der zum Entfernen der korrelierten Merkmale verwendet wird. entfernen entfernen_Nur aktiviert, wenn Multikollinearität auf True gesetzt ist.
remove_perfect_collinearity	bool, default = False	Bei Einstellung auf True perfekte Co-Linearität(Korrelation=Funktionsbetrag von 1)Wird aus dem Datensatz entfernt und die beiden Funktionen sind 100%Korrelationしている場合、そのうちの1つがランダムにデータセットから削除されます。
create_clusters	bool, default = False	Bei der Einstellung True werden zusätzliche Funktionen erstellt, bei denen jede Instanz einem Cluster zugewiesen wird. Die Anzahl der Cluster ist Calinski-Bestimmt anhand einer Kombination von Harabasz- und Silhouette-Kriterien.
cluster_iter	int, default = 20	Die Anzahl der Iterationen, die zum Erstellen des Clusters verwendet wurden. Jede Iteration repräsentiert die Größe des Clusters. erstellen erstellen erstellen_Nur gültig, wenn der Parameter cluster auf True gesetzt ist.
polynomial_features	bool, default = False	Bei der Einstellung True ist das Polynom in den numerischen Features des Datasets vorhanden._Ein neues Feature wird basierend auf der Kombination aller Polynome bis zu dem durch Gradparameter definierten Grad erstellt.
polynomial_degree	int, default = 2	Die Reihenfolge der polymorphen Merkmale. Beispielsweise ist die Eingabeprobe zweidimensional[a, b]In Form von=Die polymorphen Merkmale von 2 sind wie folgt. 1, a, b, a^2, ab, b^2]Es wird.
trigonometry_features	bool, default = False	Bei der Einstellung True ist das Polynom in den numerischen Merkmalen des Datensatzes vorhanden_Eine neue Merkmalsmenge wird basierend auf der Kombination aller Dreiecksfunktionen bis zu der durch den Gradparameter definierten Reihenfolge erstellt.
polynomial_threshold	float, default = 0.1	Der Datensatz enthält polymorphe und dreieckige Merkmale, die innerhalb des definierten Schwellenperzentils der Merkmalsbedeutung liegen, basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation. Die verbleibenden Merkmalsmengen werden gelöscht, bevor die weitere Verarbeitung durchgeführt wird.
group_features	list or list of list, default = None	Gruppieren, wenn Features enthalten sind, deren Features sich auf das Dataset beziehen_Der Merkmalsparameter kann zur statistischen Merkmalsextraktion verwendet werden. Zum Beispiel numerische Merkmale, in denen Datensätze miteinander in Beziehung stehen ('Col1', 'Col2', 'Col3')Wenn Sie eine Gruppe haben_Durch Übergeben einer Liste mit Spaltennamen unter Features können Sie statistische Informationen wie Mittelwert, Median, Modus und Standardabweichung extrahieren.
group_names	list, default = None	group_Wenn Features übergeben werden, gruppieren Sie sie als Liste mit Zeichenfolgen_Sie können den Gruppennamen im Parameter names übergeben. Gruppe_Die Länge der Namensliste ist Gruppe_Muss der Länge der Features entsprechen. Wenn die Längen nicht übereinstimmen oder der Name nicht übergeben wird, gruppieren Sie_1, group_Neue Funktionen werden nacheinander benannt, z. B. 2.
feature_selection	bool, default = False	Wenn True festgelegt ist, wird eine Teilmenge von Features mithilfe einer Kombination verschiedener Techniken zur Sortierbedeutung ausgewählt, z. B. Zufallsstruktur, Adaboost und lineare Korrelation mit Zielvariablen. Die Größe der Teilmenge ist ein Merkmal_selection_Es kommt auf param an. Dies wird üblicherweise verwendet, um den Merkmalsraum einzuschränken und die Modellierungseffizienz zu verbessern. Polynom_Merkmale und Merkmale_Wenn Sie Interaktion verwenden, Funktion_selection_Es wird dringend empfohlen, den Schwellenwertparameter mit einem niedrigeren Wert zu definieren.
feature_selection_threshold	float, default = 0.8	Schwellenwert für die Merkmalsauswahl (einschließlich neu erstellter polymorpher Merkmale). Je höher der Wert, desto größer der Funktionsbereich. Merkmale mit unterschiedlichen Werten, insbesondere wenn polymorphe Merkmale und Wechselwirkungen von Merkmal zu Merkmal verwendet werden_selection_Es wird empfohlen, mehrere Versuche mit dem Schwellenwert durchzuführen. Das Einstellen eines sehr niedrigen Werts kann effizient sein, kann jedoch zu einer Unteranpassung führen.
feature_interaction	bool, default = False	Wenn True festgelegt ist, interagiert (a) mit allen numerischen Variablen im Dataset, einschließlich polynomialer und trigonometrischer Features (falls erstellt).*b) Erstellen Sie dabei eine neue Funktion. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
feature_ratio	bool, default = False	Bei der Einstellung True wird das Verhältnis aller numerischen Variablen im Datensatz (a/b) Berechnen Sie, um ein neues Feature zu erstellen. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
interaction_threshold	bool, default = 0.01	polynomial_Ähnlich wie beim Schwellenwert wird es verwendet, um eine neu erstellte, spärliche Matrix von Features durch Interaktion zu komprimieren. Features, deren Bedeutung basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation innerhalb der definierten Schwellenperzentile liegt, werden im Datensatz gespeichert. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht.
fix_imbalance	bool, default = False	Wenn das Dataset eine ungleichmäßige Verteilung der Zielklassen aufweist, beheben Sie dies_Sie kann mit dem Ungleichgewichtsparameter geändert werden. Bei der Einstellung True ist SMOTE standardmäßig aktiviert(Synthetic Minority Over-sampling Technique)Wird angewendet, um einen zusammengesetzten Datenpunkt für die Minderheitsklasse zu erstellen.
fix_imbalance_method	obj, default = None	fix_Setzen Sie das Ungleichgewicht auf True und beheben Sie es_imbalance_Wenn die Methode auf Keine gesetzt ist, werden Minderheitenklassen während der Kreuzvalidierung standardmäßig überabgetastet.'smote'Wird angewandt. Dieser Parameter ist'fit_resample'Unterstützt Methoden'imblearn'Jedes Modul kann akzeptiert werden.
data_split_shuffle	bool, default = True	Auf False setzen, um zu verhindern, dass Zeilen beim Aufteilen von Daten gemischt werden.
folds_shuffle	bool, default = False	Auf False setzen, um zu verhindern, dass Zeilen bei Verwendung der Kreuzvalidierung gemischt werden.
n_jobs	int, default = -1	Gibt die Anzahl der Jobs an, die parallel ausgeführt werden sollen(Für Funktionen, die die Parallelverarbeitung unterstützen)-1 bedeutet, alle Prozessoren zu verwenden. Um alle Funktionen auf einem einzelnen Prozessor auszuführen, n_Setzen Sie Jobs auf Keine.
html	bool, default = True	Auf False setzen, um die Laufzeitanzeige des Monitors zu deaktivieren. Wenn Sie eine Umgebung verwenden, die HTML nicht unterstützt, müssen Sie sie auf False setzen.
session_id	int, default = None	Wenn Keine, wird ein zufälliger Startwert generiert und an das Informationsraster zurückgegeben. Alle Funktionen, die dann während des Experiments verwendet werden, erhalten dann eine eindeutige Nummer als Startwert. Dies kann zur Reproduzierbarkeit nach dem gesamten Experiment verwendet werden.
log_experiment	bool, default = False	Bei der Einstellung True werden alle Metriken und Parameter auf dem MLFlow-Server aufgezeichnet.
experiment_name	str, default = None	Der Name des zu protokollierenden Experiments. Wenn auf Keine gesetzt, standardmäßig'clf'Wird als Alias für den Experimentnamen verwendet.
log_plots	bool, default = False	Wenn True festgelegt ist, wird ein bestimmtes Diagramm als PNG-Datei in MLflow aufgezeichnet. Der Standardwert ist False.
log_profile	bool, default = False	Wenn True festgelegt ist, wird das Datenprofil auch in MLflow als HTML-Datei aufgezeichnet. Der Standardwert ist False.
log_data	bool, default = False	Bei der Einstellung True werden Trainings- und Testdaten als CSV aufgezeichnet.
silent	bool, default = False	Bei der Einstellung True ist keine Bestätigung des Datentyps erforderlich. Die gesamte Vorverarbeitung wird unter der Annahme eines automatisch abgeleiteten Datentyps durchgeführt. Die direkte Verwendung außerhalb etablierter Pipelines wird nicht empfohlen.
verbose	Boolean, default = True	Wenn verbose auf False gesetzt ist, wird das Informationsraster nicht gedruckt.
profile	bool, default = False	Bei true wird das Datenprofil für die explorative Datenanalyse in einem interaktiven HTML-Bericht angezeigt.

Regressionsregression PyCaret2.0

Parameter	Erläuterung	Einzelheiten
data	{array-like, sparse matrix}	Shape (n_samples, n_features)Wo n_Proben ist die Anzahl der Proben, n_Features ist die Anzahl der Features.
target	string	Der Spaltenname, der als Zeichenfolge übergeben werden soll.
train_size	float, default = 0.7	Die Größe des Trainingssatzes. Standardmäßig 70 Daten%Wird zur Schulung und Überprüfung verwendet. Testen Sie den Rest der Daten/Wird für Holdout-Sets verwendet.
sampling	bool, default = True	Die Stichprobengröße beträgt 25,Über 000 Stichproben hinaus erstellt Pycaret Basisschätzer für verschiedene Stichprobengrößen aus dem Originaldatensatz. Dies gibt Leistungsdiagramme von R2-Werten auf verschiedenen Stichprobenebenen zurück, um eine geeignete Stichprobengröße für die Modellierung zu ermitteln. Als nächstes müssen Sie die gewünschte Stichprobengröße für das Training und die Validierung in der Pycaret-Umgebung eingeben. Probe eingeben_finalisieren, wenn die Größe kleiner als 1 ist_model()Verbleibender Datensatz (1) nur beim Aufruf-Probe) wird verwendet, um das Modell anzupassen.
sample_estimator	object, default = None	Wenn keine vorhanden ist, wird standardmäßig die lineare Regression verwendet.
categorical_features	string, default = None	Kategorisch, wenn der abgeleitete Datentyp falsch ist_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Verwenden Sie diesen Parameter zur Kategorisierung, wenn davon ausgegangen wird, dass der Typ von numerisch statt algorithmisch ist_features = ['column1']Sie können diesen Typ durch Übergeben überschreiben.
categorical_imputation	string, default = 'constant'	Wenn in der Kategorie-Feature-Menge ein fehlender Wert gefunden wird, wird ein bestimmtes "Nicht" gefunden._Es wird mit dem Wert "verfügbar" eingegeben. Eine weitere verfügbare Option ist'mode'Geben Sie in den fehlenden Wert mit dem häufigsten Wert im Trainingsdatensatz ein.
ordinal_features	dictionary, default = None	Ordnungszahl, wenn die Daten hierarchische Merkmale enthalten_Sie müssen mit dem Merkmalsparameter eine andere Codierung durchführen. Die Daten sind'low'、'medium'、'high'Hat eine kategoriale Variable mit dem Wert low< medium <Ordnungszahl, wenn bekannt, dass sie hoch ist_features = { 'column_name' : ['low', 'medium', 'high'] }Kann als übergeben werden. Die Reihenfolge der Liste sollte vom niedrigsten zum höchsten sein.
high_cardinality_features	string, default = None	Wenn Ihre Daten Merkmale mit hoher Kardinalität enthalten, können Sie sie auf eine niedrigere Ebene reduzieren, indem Sie sie als Liste mit Spaltennamen mit hoher Kardinalität übergeben. Die Feature-Komprimierung ist sehr hoch_cardinality_Verwenden Sie die in Methode definierte Methode.
high_cardinality_method	string, default = 'frequency'	Frequenz'frequency'Bei Einstellung auf wird der ursprüngliche Wert der Merkmalsmenge durch die Häufigkeitsverteilung ersetzt und quantifiziert. Eine andere verfügbare Methode ist "Clustering", bei dem die statistischen Attribute der Daten gruppiert und der ursprüngliche Wert des Features durch die Clusterbezeichnung ersetzt werden.
numeric_features	string, default = None	Wenn der abgeleitete Datentyp falsch ist, numerisch_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Wenn der Typ von als Kategorie und nicht als Zahl abgeleitet wird, verwenden Sie diesen Parameter zur Numerierung_features = ['column1']Es kann durch Übergeben überschrieben werden.
numeric_imputation	string, default = 'mean'	Wenn in der numerischen Merkmalsmenge ein fehlender Wert gefunden wird, wird der Durchschnittswert der Merkmalsmenge zur Eingabe verwendet. Eine weitere verfügbare Option ist'median'Geben Sie in den Wert mit dem Medianwert des Trainingsdatensatzes ein.
date_features	string, default = None	Wenn die Daten eine DateTime-Spalte haben, die beim Setup nicht automatisch erkannt wird, Datum_features = 'date_column_name'Sie können diesen Parameter durch Übergeben verwenden. Es kann mit mehreren Datumsspalten arbeiten. Die Datumsspalte wird bei der Modellierung nicht verwendet. Stattdessen wird eine Feature-Extraktion durchgeführt und die Datumsspalte aus dem Dataset entfernt. Wenn die Datumsspalte einen Zeitstempel enthält, werden auch zeitbezogene Funktionen extrahiert.
ignore_features	string, default = None	Parameter ignorieren, wenn es Funktionen gibt, die für die Modellierung ignoriert werden sollten_Sie können es an Funktionen übergeben. Die abgeleiteten ID- und DateTime-Spalten werden automatisch so festgelegt, dass sie für Modellierungszwecke ignoriert werden.
normalize	bool, default = False	Bei der Einstellung True wurde der Parameter normalisiert_Der Feature-Space wird mithilfe einer Methode transformiert. Im Allgemeinen arbeiten lineare Algorithmen mit normalisierten Daten besser, die Ergebnisse können jedoch variieren.
normalize_method	string, default = 'zscore'	Definiert die für die Normalisierung verwendete Methode. Standardmäßig ist die Normalisierungsmethode'zscore'Ist eingestellt auf. Der Standard-Zscore ist z= (x - u) /Berechnet als s.
	minmax	minmax' : 0 -Skalieren und konvertieren Sie jedes Feature einzeln, sodass es im Bereich von 1 liegt.
	maxabs	maxabs':Der maximale Absolutwert jedes Features beträgt 1.Jedes Feature wird einzeln skaliert und konvertiert, sodass es zu 0 wird. Dies ist eine Datenverschiebung/Da es nicht zentriert, zerstört es nicht die Spparität.
	robust	robust':Jedes Feature wird entsprechend dem Bereich zwischen Quarkplättchen skaliert und konvertiert. Robuste Skalierer liefern häufig bessere Ergebnisse, wenn der Datensatz Ausreißer enthält.
transformation	bool, default = False	Setzen Sie diesen Wert auf True, um die Daten normaler zu machen/Die Multiplikatorumwandlung wird angewendet, um sie Gaußsch zu machen. Dies ist nützlich für die Modellierung von Problemen im Zusammenhang mit Heterogenität und anderen Situationen, in denen Normalität gewünscht wird. Die optimalen Parameter zur Stabilisierung der Dispersion und zur Minimierung der Dehnung werden nach der wahrscheinlichsten Methode geschätzt.
transformation_method	string, default = 'yeo-johnson'	Definiert die Konvertierungsmethode. Standardmäßig ist die Konvertierungsmethode'yeo-johnson'Ist eingestellt auf. Als weitere Option'quantile'Es gibt eine Konvertierung. Beide Transformationen transformieren den Funktionsumfang so, dass er einer Gaußschen oder Normalverteilung folgt. Beachten Sie, dass die Divisionstransformation nicht linear ist und die lineare Korrelation zwischen auf derselben Skala gemessenen Variablen verzerren kann.
handle_unknown_categorical	bool, default = True	Neu, wenn auf True gesetzt/Die unbekannte Kategorieebene der unsichtbaren Daten wird durch die häufigste oder am wenigsten häufige Ebene ersetzt, die in den Trainingsdaten trainiert wird. Diese Methode ist unbekannt_categorical_Im Methodenparameter definiert.
unknown_categorical_method	string, default = 'least_frequent'	Eine Methode zum Ersetzen einer unbekannten kategorialen Ebene unsichtbarer Daten. In der Methode'least_frequent'Oder'most_frequent'Kann eingestellt werden.
pca	bool, default = False	Wenn auf True gesetzt, pca_Die Dimensionsreduktion wird angewendet, um die Daten mithilfe der durch den Methodenparameter definierten Methode in einen Raum mit niedrigeren Dimensionen zu projizieren. Beim überwachten Lernen wird pca im Allgemeinen ausgeführt, wenn es sich um Räume mit hohen Merkmalen handelt oder wenn der Speicher eingeschränkt ist. Beachten Sie, dass nicht alle Datensätze mithilfe linearer PCA-Techniken effizient zerlegt werden können und das Anwenden von PCA zu Informationsverlust führen kann. Daher verschiedene pca, um seine Auswirkungen zu bewerten_Wir empfehlen, dass Sie mehrere Experimente mit Methoden durchführen.
pca_method	string, default = 'linear'	Das lineare Verfahren verwendet eine Singularitätszerlegung, um eine lineare Dimensionsreduktion durchzuführen. Andere verfügbare Optionen sind:
	kernel	Dimensionsreduzierung mit RVF-Kernel.
	incremental	Wenn der Datensatz, den Sie zerlegen möchten, zu groß ist, um in den Speicher zu passen'linear'Ersetzen Sie pca.
pca_components	int/float, default = 0.99	pca_Wenn die Komponenten schwebend sind, werden sie als Zielprozentsatz behandelt, um die Informationen beizubehalten. pca_Wenn Komponenten Ganzzahlen sind, werden sie als die Anzahl der Features behandelt, die beibehalten werden sollen. pca_Die Komponenten müssen strengstens kleiner sein als die ursprünglichen Merkmale des Datensatzes.
ignore_low_variance	bool, default = False	Bei der Einstellung True werden alle Kategoriefeatures mit nicht statistisch signifikanten Abweichungen aus dem Datensatz entfernt. Die Varianz wird unter Verwendung des Verhältnisses eindeutiger Werte zur Anzahl der Proben und des Verhältnisses der häufigsten Werte zur Häufigkeit des zweithöchsten Werts berechnet.
combine_rare_levels	bool, default = False	Wenn auf True gesetzt, param selten_level_Alle Ebenen von Kategoriemerkmalen unterhalb des durch den Schwellenwert definierten Schwellenwerts werden als eine Ebene zusammengefasst. Es müssen mindestens zwei Stufen unter dem Schwellenwert liegen, damit dies wirksam wird. Selten_level_Der Schwellenwert repräsentiert die Perzentilverteilung der Pegelfrequenz. Im Allgemeinen wird diese Technik angewendet, um spärliche Matrizen aufgrund der großen Anzahl von Ebenen in kategorialen Merkmalen zu begrenzen.
rare_level_threshold	float, default = 0.1	Eine Perzentilverteilung, die seltene Kategorien kombiniert. kombinieren_rare_Nur aktiviert, wenn die Ebenen auf True gesetzt sind.
bin_numeric_features	list, default = None	Wenn eine Liste numerischer Features übergeben wird, werden diese mithilfe von KMeans in kategoriale Features konvertiert. Die Anzahl der Cluster'sturges'Es wird auf der Grundlage des Gesetzes entschieden. Dies ist nur für Gaußsche Daten am besten geeignet und unterschätzt die Anzahl der Fächer für große nicht-Gaußsche Datensätze.
remove_outliers	bool, default = False	Bei der Einstellung True werden Ausreißer mithilfe der linearen PCA-Dimensionsreduktion mithilfe von Singularitätszerlegungstechniken aus den Trainingsdaten entfernt.
outliers_threshold	float, default = 0.05	Prozentsatz der Ausreißer im Datensatz/Prozent ist der Parameter Ausreißer_Sie kann mithilfe des Schwellenwerts definiert werden. Standardmäßig 0.05 wird verwendet. Dies ist 0 für jede Seite des Endes der Verteilung.Dies bedeutet, dass 025 aus den Trainingsdaten gelöscht wird.
remove_multicollinearity	bool, default = False	Bei Einstellung auf True Multikollinearität_Variablen, die eine höhere Korrelation als der durch den Schwellenwertparameter definierte Schwellenwert aufweisen, werden gelöscht. Wenn die beiden Merkmale eine hohe Korrelation miteinander aufweisen, wird das Merkmal mit der niedrigsten Korrelation mit der Zielvariablen gelöscht.
multicollinearity_threshold	float, default = 0.9	Der Schwellenwert, der zum Entfernen der korrelierten Merkmale verwendet wird. entfernen entfernen_Nur aktiviert, wenn Multikollinearität auf True gesetzt ist.
remove_perfect_collinearity	bool, default = False	Bei Einstellung auf True perfekte Co-Linearität(Korrelation=Funktionsbetrag von 1)Wird aus dem Datensatz entfernt und die beiden Funktionen sind 100%Korrelationしている場合、そのうちの1つがランダムにデータセットから削除されます。
create_clusters	bool, default = False	Bei der Einstellung True werden zusätzliche Funktionen erstellt, bei denen jede Instanz einem Cluster zugewiesen wird. Die Anzahl der Cluster ist Calinski-Bestimmt anhand einer Kombination von Harabasz- und Silhouette-Kriterien.
cluster_iter	int, default = 20	Die Anzahl der Iterationen, die zum Erstellen des Clusters verwendet wurden. Jede Iteration repräsentiert die Größe des Clusters. erstellen erstellen erstellen_Nur gültig, wenn der Parameter cluster auf True gesetzt ist.
polynomial_features	bool, default = False	Bei der Einstellung True ist das Polynom in den numerischen Features des Datasets vorhanden._Ein neues Feature wird basierend auf der Kombination aller Polynome bis zu dem durch Gradparameter definierten Grad erstellt.
polynomial_degree	int, default = 2	Die Reihenfolge der polymorphen Merkmale. Beispielsweise ist die Eingabeprobe zweidimensional[a, b]In Form von=Die polymorphen Merkmale von 2 sind wie folgt. 1, a, b, a^2, ab, b^2]Es wird.
trigonometry_features	bool, default = False	Bei der Einstellung True ist das Polynom in den numerischen Merkmalen des Datensatzes vorhanden_Eine neue Merkmalsmenge wird basierend auf der Kombination aller Dreiecksfunktionen bis zu der durch den Gradparameter definierten Reihenfolge erstellt.
polynomial_threshold	float, default = 0.1	Es wird verwendet, um eine spärliche Matrix aus polymorphen Merkmalen und dreieckigen Merkmalmerkmalen zu komprimieren. Polygonale und dreieckige Funktionsmerkmale, deren Bedeutung von Merkmalen, die auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation basieren, innerhalb des definierten Schwellenperzentils liegen, bleiben im Datensatz erhalten. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht.
group_features	list or list of list, default = None	Gruppieren, wenn Features enthalten sind, deren Features sich auf das Dataset beziehen_featuresparam kann zur statistischen Merkmalsextraktion verwendet werden. Zum Beispiel numerische Merkmale, in denen Datensätze miteinander in Beziehung stehen ('Col1', 'Col2', 'Col3')Wenn Sie eine Gruppe haben_Durch Übergeben einer Liste mit Spaltennamen unter Features können Sie statistische Informationen wie Mittelwert, Median, Modus und Standardabweichung extrahieren.
group_names	list, default = None	group_Wenn Features übergeben werden, gruppieren Sie sie als Liste mit Zeichenfolgen_Sie können den Gruppennamen im Parameter names übergeben. Gruppe_Die Länge der Namensliste ist Gruppe_Muss der Länge der Features entsprechen. Wenn die Längen nicht übereinstimmen oder der Name nicht übergeben wird, gruppieren Sie_1, group_Neue Funktionen werden nacheinander benannt, z. B. 2.
feature_selection	bool, default = False	Wenn True festgelegt ist, wird eine Teilmenge von Features mithilfe einer Kombination verschiedener Techniken zur Sortierbedeutung ausgewählt, z. B. Zufallsstruktur, Adaboost und lineare Korrelation mit Zielvariablen. Die Größe der Teilmenge ist ein Merkmal_selection_Es kommt auf param an. Dies wird üblicherweise verwendet, um den Merkmalsraum einzuschränken und die Modellierungseffizienz zu verbessern. Polynom_Merkmale und Merkmale_Wenn Sie Interaktion verwenden, Funktion_selection_Es wird dringend empfohlen, den Schwellenwertparameter mit einem niedrigeren Wert zu definieren.
feature_selection_threshold	float, default = 0.8	Schwellenwert für die Merkmalsauswahl (einschließlich neu erstellter polymorpher Merkmale). Je größer der Wert, desto mehr Funktionen. Merkmale mit unterschiedlichen Werten, insbesondere bei Verwendung polymorpher Merkmale und Interaktionen zwischen Merkmalen_selection_Wir empfehlen, dass Sie den Schwellenwert mehrmals verwenden. Das Einstellen eines sehr niedrigen Werts ist effizient, kann jedoch zu einer Unteranpassung führen.
feature_interaction	bool, default = False	Wenn True festgelegt ist, interagiert (a) mit allen numerischen Variablen im Dataset, einschließlich polynomialer und trigonometrischer Features (falls erstellt).*b) Erstellen Sie dabei eine neue Funktion. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
feature_ratio	bool, default = False	Bei der Einstellung True wird das Verhältnis aller numerischen Variablen im Datensatz (a/b) Berechnen Sie, um ein neues Feature zu erstellen. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
interaction_threshold	bool, default = 0.01	polynomial_Ähnlich wie beim Schwellenwert wird es verwendet, um eine neu erstellte, spärliche Matrix von Features durch Interaktion zu komprimieren. Features, deren Bedeutung basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation innerhalb der definierten Schwellenperzentile liegt, werden im Datensatz gespeichert. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht.
transform_target	bool, default = False	Wenn auf True gesetzt, transformieren Sie_target_Konvertiert die Zielvariable wie im Methodenparameter definiert. Die Zieltransformation wird getrennt von der Feature-Transformation angewendet.
transform_target_method	string, default = 'box-cox'	Box-cox'und'yeo-johnson'Das Gesetz wird unterstützt. Box-Cox verlangt, dass die Eingabedaten genau positiv sind, aber Yeo-Johnson unterstützt sowohl positive als auch negative Daten. verwandeln_target_Methode ist'box-cox'Und wenn die Zielvariable einen negativen Wert enthält, die Methode intern, um Ausnahmen zu vermeiden'yeo-johnson'Ist gezwungen zu.
data_split_shuffle	bool, default = True	Auf False setzen, um zu verhindern, dass Zeilen beim Aufteilen von Daten gemischt werden.
folds_shuffle	bool, default = True	Auf False setzen, um zu verhindern, dass Zeilen bei Verwendung der Kreuzvalidierung gemischt werden.
n_jobs	int, default = -1	Gibt die Anzahl der Jobs an, die parallel ausgeführt werden sollen(Für Funktionen, die die Parallelverarbeitung unterstützen)-1 bedeutet, alle Prozessoren zu verwenden. Um alle Funktionen auf einem einzelnen Prozessor auszuführen, n_Setzen Sie Jobs auf Keine.
html	bool, default = True	Auf False setzen, um die Laufzeitanzeige des Monitors zu deaktivieren. Wenn Sie eine Umgebung verwenden, die HTML nicht unterstützt, müssen Sie sie auf False setzen.
session_id	int, default = None	Wenn Keine, wird ein zufälliger Startwert generiert und an das Informationsraster zurückgegeben. Alle Funktionen, die dann während des Experiments verwendet werden, erhalten dann eine eindeutige Nummer als Startwert. Dies kann zur Reproduzierbarkeit nach dem gesamten Experiment verwendet werden.
log_experiment	bool, default = False	Bei der Einstellung True werden alle Metriken und Parameter auf dem MLFlow-Server aufgezeichnet.
experiment_name	str, default = None	Der Name des zu protokollierenden Experiments. Wenn auf Keine gesetzt, standardmäßig'reg'Wird als Alias für den Experimentnamen verwendet.
log_plots	bool, default = False	Wenn True festgelegt ist, wird ein bestimmtes Diagramm als PNG-Datei in MLflow aufgezeichnet. Der Standardwert ist False.
log_profile	bool, default = False	Wenn True festgelegt ist, wird das Datenprofil auch in MLflow als HTML-Datei aufgezeichnet. Der Standardwert ist False.
log_data	bool, default = False	Bei der Einstellung True werden Trainings- und Testdaten als CSV aufgezeichnet.
silent	bool, default = False	Bei der Einstellung True ist keine Bestätigung des Datentyps erforderlich. Die gesamte Vorverarbeitung wird unter der Annahme eines automatisch abgeleiteten Datentyps durchgeführt. Die direkte Verwendung außerhalb etablierter Pipelines wird nicht empfohlen.
verbose	Boolean, default = True	Wenn verbose auf False gesetzt ist, wird das Informationsraster nicht gedruckt.
profile	bool, default = False	Bei true wird das Datenprofil für die explorative Datenanalyse in einem interaktiven HTML-Bericht angezeigt.

[PYTHON] Über die Argumente der Setup-Funktion von PyCaret

Argumente der Pycaret-Setup-Funktion

Klassifizierung Klassifizierung PyCaret2.0

Regressionsregression PyCaret2.0