[PYTHON] Über die Argumente der Setup-Funktion von PyCaret

Argumente der Pycaret-Setup-Funktion

PyCaret-Beamter: Home - PyCaret PyCaret-Handbuch: PyCaret-Handbuch - PyCaret PyCaret Github:pycaret/pycaret: An open source, low-code machine learning library in Python

Klassifizierung Klassifizierung PyCaret2.0

Parameter Erläuterung Einzelheiten
data {array-like, sparse matrix} Shape (n_samples, n_features)Wo n_Proben ist die Anzahl der Proben, n_Features ist die Anzahl der Features.
target string Der Spaltenname, der als Zeichenfolge übergeben werden soll. Die Zielvariable kann binär oder mehrklassig sein. Bei Zielen mit mehreren Klassen werden alle Schätzungen in den OneVs Rest-Klassifizierer eingeschlossen.
train_size float, default = 0.7 Die Größe des Trainingssatzes. Standardmäßig 70 Daten%Wird zur Schulung und Überprüfung verwendet. Testen Sie den Rest der Daten/Wird für Holdout-Sets verwendet.
sampling bool, default = True Die Stichprobengröße beträgt 25,Über 000 Stichproben hinaus erstellt Pycaret Basisschätzer für verschiedene Stichprobengrößen aus dem Originaldatensatz. Es werden Leistungsdiagramme von AUC-, Genauigkeits-, Rückruf-, Präzisions-, Kappa- und F1-Werten auf verschiedenen Stichprobenebenen zurückgegeben, um die geeignete Stichprobengröße für die Modellierung zu bestimmen. Anschließend müssen Sie die gewünschte Stichprobengröße für das Training und die Validierung in einer Piecaret-Umgebung eingeben. Probe eingeben_finalisieren, wenn die Größe kleiner als 1 ist_model()Verbleibender Datensatz (1) nur beim Aufruf-Probe) wird verwendet, um das Modell anzupassen.
sample_estimator object, default = None Wenn Keine, wird standardmäßig die logistische Regression verwendet.
categorical_features string, default = None Kategorisch, wenn der abgeleitete Datentyp falsch ist_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Verwenden Sie diesen Parameter zur Kategorisierung, wenn davon ausgegangen wird, dass der Typ von numerisch statt algorithmisch ist_features = ['column1']Sie können diesen Typ durch Übergeben überschreiben.
categorical_imputation string, default = 'constant' Wenn in der Kategorie-Feature-Menge ein fehlender Wert gefunden wird, wird ein bestimmtes "Nicht" gefunden._Es wird mit dem Wert "verfügbar" eingegeben. Eine weitere verfügbare Option ist'mode'Geben Sie in den fehlenden Wert mit dem häufigsten Wert im Trainingsdatensatz ein.
ordinal_features dictionary, default = None Ordnungszahl, wenn die Daten hierarchische Merkmale enthalten_Sie müssen mit dem Merkmalsparameter eine andere Codierung durchführen. Die Daten sind'low'、'medium'、'high'Hat eine kategoriale Variable mit dem Wert low< medium <Ordnungszahl, wenn bekannt, dass sie hoch ist_features = { 'column_name' : ['low', 'medium', 'high'] }Kann als übergeben werden. Die Reihenfolge der Liste sollte vom niedrigsten zum höchsten sein.
high_cardinality_features string, default = None Wenn ein Feature mit hoher Kardinalität enthalten ist, kann es auf eine kleinere Ebene komprimiert werden, indem es als Liste von Spaltennamen mit hoher Kardinalität übergeben wird.
high_cardinality_method string, default = 'frequency' Frequenz'frequency'Bei Einstellung auf wird der ursprüngliche Wert der Merkmalsmenge durch die Häufigkeitsverteilung ersetzt und quantifiziert. Eine andere verfügbare Methode ist "Clustering", bei dem die statistischen Attribute der Daten gruppiert und der ursprüngliche Wert des Features durch die Clusterbezeichnung ersetzt werden.
numeric_features string, default = None Wenn der abgeleitete Datentyp falsch ist, numerisch_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Wenn der Typ von als Kategorie und nicht als Zahl abgeleitet wird, verwenden Sie diesen Parameter zur Numerierung_features = ['column1']Es kann durch Übergeben überschrieben werden.
numeric_imputation string, default = 'mean' Wenn in der numerischen Merkmalsmenge ein fehlender Wert gefunden wird, wird der Durchschnittswert der Merkmalsmenge zur Eingabe verwendet. Eine weitere verfügbare Option ist'median'Geben Sie in den Wert mit dem Medianwert des Trainingsdatensatzes ein.
date_features string, default = None Wenn die Daten eine DateTime-Spalte haben, die beim Setup nicht automatisch erkannt wird, Datum_features = 'date_column_name'Sie können diesen Parameter durch Übergeben verwenden. Es kann mit mehreren Datumsspalten arbeiten. Die Datumsspalte wird bei der Modellierung nicht verwendet. Stattdessen wird eine Feature-Extraktion durchgeführt und die Datumsspalte aus dem Dataset entfernt. Wenn die Datumsspalte einen Zeitstempel enthält, werden auch zeitbezogene Funktionen extrahiert.
ignore_features string, default = None Parameter ignorieren, wenn es Funktionen gibt, die für die Modellierung ignoriert werden sollten_Sie können es an Funktionen übergeben. Die abgeleiteten ID- und DateTime-Spalten werden automatisch so festgelegt, dass sie für Modellierungszwecke ignoriert werden.
normalize bool, default = False Bei der Einstellung True wurde der Parameter normalisiert_Der Feature-Space wird mithilfe einer Methode transformiert. Im Allgemeinen arbeiten lineare Algorithmen mit normalisierten Daten besser, die Ergebnisse können jedoch variieren.
normalize_method string, default = 'zscore' Definiert die für die Normalisierung verwendete Methode. Standardmäßig ist die Normalisierungsmethode'zscore'Ist eingestellt auf. Der Standard-Zscore ist z= (x - u) /Berechnet als s.
minmax 0 -Skalieren und konvertieren Sie jedes Feature einzeln, sodass es im Bereich von 1 liegt.
maxabs Der maximale Absolutwert jedes Features beträgt 1.Jedes Feature wird einzeln skaliert und konvertiert, sodass es zu 0 wird. Dies ist eine Datenverschiebung/Da es nicht zentriert, zerstört es nicht die Spparität.
robust Jedes Feature wird entsprechend dem Bereich zwischen Quarkplättchen skaliert und konvertiert. Robuste Skalierer liefern häufig bessere Ergebnisse, wenn der Datensatz Ausreißer enthält.
transformation bool, default = False Bei der Einstellung True wird die Leistungsumwandlung angewendet, damit die Daten regelmäßiger nach Gauß aussehen. Dies ist nützlich für die Modellierung von Problemen im Zusammenhang mit Heterogenität und anderen Situationen, in denen Normalität gewünscht wird. Die optimalen Parameter zur Stabilisierung der Dispersion und zur Minimierung der Dehnung werden nach der wahrscheinlichsten Methode geschätzt.
transformation_method string, default = 'yeo-johnson' Definiert die Konvertierungsmethode. Standardmäßig ist die Konvertierungsmethode'yeo-johnson'Ist eingestellt auf. Als weitere Option'quantile'Es gibt eine Konvertierung. Beide Transformationen transformieren den Funktionsumfang so, dass er einer Gaußschen oder Normalverteilung folgt. Beachten Sie, dass die Divisionstransformation nicht linear ist und die lineare Korrelation zwischen auf derselben Skala gemessenen Variablen verzerren kann.
handle_unknown_categorical bool, default = True Neu, wenn auf True gesetzt/Die unbekannte Kategorieebene der unsichtbaren Daten wird durch die häufigste oder am wenigsten häufige Ebene ersetzt, die in den Trainingsdaten trainiert wird. Diese Methode ist unbekannt_categorical_Im Methodenparameter definiert.
unknown_categorical_method string, default = 'least_frequent' Eine Methode zum Ersetzen einer unbekannten kategorialen Ebene unsichtbarer Daten. Die Methode ist'least_frequent'Oder'most_frequent'Kann auf eingestellt werden.
pca bool, default = False Wenn auf True gesetzt, pca_Die Dimensionsreduktion wird angewendet, um die Daten mithilfe der durch den Methodenparameter definierten Methode in einen Raum mit niedrigeren Dimensionen zu projizieren. Beim überwachten Lernen wird pca im Allgemeinen ausgeführt, wenn es sich um Räume mit hohen Merkmalen handelt oder wenn der Speicher eingeschränkt ist. Beachten Sie, dass nicht alle Datensätze mithilfe linearer PCA-Techniken effizient zerlegt werden können und das Anwenden von PCA zu Informationsverlust führen kann. Daher verschiedene pca, um seine Auswirkungen zu bewerten_Wir empfehlen, dass Sie mehrere Experimente mit Methoden durchführen.
pca_method string, default = 'linear' Das lineare Verfahren verwendet eine Singularitätszerlegung, um eine lineare Dimensionsreduktion durchzuführen. Andere verfügbare Optionen sind:
kernel Dimensionsreduzierung mit RVF-Kernel.
incremental Wenn der Datensatz, den Sie zerlegen möchten, zu groß ist, um in den Speicher zu passen'linear'Ersetzen Sie pca.
pca_components int/float, default = 0.99 pca_Wenn die Komponenten schwebend sind, werden sie als Zielprozentsatz behandelt, um die Informationen beizubehalten. pca_Wenn Komponenten Ganzzahlen sind, werden sie als die Anzahl der Features behandelt, die beibehalten werden sollen. pca_Die Komponenten müssen strengstens kleiner sein als die ursprünglichen Merkmale des Datensatzes.
ignore_low_variance bool, default = False Bei der Einstellung True werden alle Kategoriefeatures mit nicht statistisch signifikanten Abweichungen aus dem Datensatz entfernt. Die Varianz wird unter Verwendung des Verhältnisses eindeutiger Werte zur Anzahl der Proben und des Verhältnisses der häufigsten Werte zur Häufigkeit des zweithöchsten Werts berechnet.
combine_rare_levels bool, default = False Wenn auf True gesetzt, param selten_level_Alle Ebenen von Kategoriemerkmalen unterhalb des durch den Schwellenwert definierten Schwellenwerts werden als eine Ebene zusammengefasst. Es müssen mindestens zwei Stufen unter dem Schwellenwert liegen, damit dies wirksam wird. Selten_level_Der Schwellenwert repräsentiert die Perzentilverteilung der Pegelfrequenz. Im Allgemeinen wird diese Technik angewendet, um spärliche Matrizen aufgrund der großen Anzahl von Ebenen in kategorialen Merkmalen zu begrenzen.
rare_level_threshold float, default = 0.1 Eine Perzentilverteilung, die seltene Kategorien kombiniert. kombinieren_rare_Nur aktiviert, wenn die Ebenen auf True gesetzt sind.
bin_numeric_features list, default = None Wenn eine Liste numerischer Features übergeben wird, werden diese mithilfe von KMeans in kategoriale Features konvertiert. Die Anzahl der Cluster'sturges'Es wird auf der Grundlage des Gesetzes entschieden. Dies ist nur für Gaußsche Daten am besten geeignet und unterschätzt die Anzahl der Fächer für große nicht-Gaußsche Datensätze.
remove_outliers bool, default = False Bei der Einstellung True werden Ausreißer mithilfe der linearen PCA-Dimensionsreduktion mithilfe von Singularitätszerlegungstechniken aus den Trainingsdaten entfernt.
outliers_threshold float, default = 0.05 Prozentsatz der Ausreißer im Datensatz/Prozent ist der Parameter Ausreißer_Sie kann mithilfe des Schwellenwerts definiert werden. Standardmäßig 0.05 wird verwendet. Dies ist 0 für jede Seite des Endes der Verteilung.Dies bedeutet, dass 025 aus den Trainingsdaten gelöscht wird.
remove_multicollinearity bool, default = False Bei Einstellung auf True Multikollinearität_Variablen, die eine höhere Korrelation als der durch den Schwellenwertparameter definierte Schwellenwert aufweisen, werden gelöscht. Wenn die beiden Merkmale eine hohe Korrelation miteinander aufweisen, wird das Merkmal mit der niedrigsten Korrelation mit der Zielvariablen gelöscht.
multicollinearity_threshold float, default = 0.9 Der Schwellenwert, der zum Entfernen der korrelierten Merkmale verwendet wird. entfernen entfernen_Nur aktiviert, wenn Multikollinearität auf True gesetzt ist.
remove_perfect_collinearity bool, default = False Bei Einstellung auf True perfekte Co-Linearität(Korrelation=Funktionsbetrag von 1)Wird aus dem Datensatz entfernt und die beiden Funktionen sind 100%Korrelationしている場合、そのうちの1つがランダムにデータセットから削除されます。
create_clusters bool, default = False Bei der Einstellung True werden zusätzliche Funktionen erstellt, bei denen jede Instanz einem Cluster zugewiesen wird. Die Anzahl der Cluster ist Calinski-Bestimmt anhand einer Kombination von Harabasz- und Silhouette-Kriterien.
cluster_iter int, default = 20 Die Anzahl der Iterationen, die zum Erstellen des Clusters verwendet wurden. Jede Iteration repräsentiert die Größe des Clusters. erstellen erstellen erstellen_Nur gültig, wenn der Parameter cluster auf True gesetzt ist.
polynomial_features bool, default = False Bei der Einstellung True ist das Polynom in den numerischen Features des Datasets vorhanden._Ein neues Feature wird basierend auf der Kombination aller Polynome bis zu dem durch Gradparameter definierten Grad erstellt.
polynomial_degree int, default = 2 Die Reihenfolge der polymorphen Merkmale. Beispielsweise ist die Eingabeprobe zweidimensional[a, b]In Form von=Die polymorphen Merkmale von 2 sind wie folgt. 1, a, b, a^2, ab, b^2]Es wird.
trigonometry_features bool, default = False Bei der Einstellung True ist das Polynom in den numerischen Merkmalen des Datensatzes vorhanden_Eine neue Merkmalsmenge wird basierend auf der Kombination aller Dreiecksfunktionen bis zu der durch den Gradparameter definierten Reihenfolge erstellt.
polynomial_threshold float, default = 0.1 Der Datensatz enthält polymorphe und dreieckige Merkmale, die innerhalb des definierten Schwellenperzentils der Merkmalsbedeutung liegen, basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation. Die verbleibenden Merkmalsmengen werden gelöscht, bevor die weitere Verarbeitung durchgeführt wird.
group_features list or list of list, default = None Gruppieren, wenn Features enthalten sind, deren Features sich auf das Dataset beziehen_Der Merkmalsparameter kann zur statistischen Merkmalsextraktion verwendet werden. Zum Beispiel numerische Merkmale, in denen Datensätze miteinander in Beziehung stehen ('Col1', 'Col2', 'Col3')Wenn Sie eine Gruppe haben_Durch Übergeben einer Liste mit Spaltennamen unter Features können Sie statistische Informationen wie Mittelwert, Median, Modus und Standardabweichung extrahieren.
group_names list, default = None group_Wenn Features übergeben werden, gruppieren Sie sie als Liste mit Zeichenfolgen_Sie können den Gruppennamen im Parameter names übergeben. Gruppe_Die Länge der Namensliste ist Gruppe_Muss der Länge der Features entsprechen. Wenn die Längen nicht übereinstimmen oder der Name nicht übergeben wird, gruppieren Sie_1, group_Neue Funktionen werden nacheinander benannt, z. B. 2.
feature_selection bool, default = False Wenn True festgelegt ist, wird eine Teilmenge von Features mithilfe einer Kombination verschiedener Techniken zur Sortierbedeutung ausgewählt, z. B. Zufallsstruktur, Adaboost und lineare Korrelation mit Zielvariablen. Die Größe der Teilmenge ist ein Merkmal_selection_Es kommt auf param an. Dies wird üblicherweise verwendet, um den Merkmalsraum einzuschränken und die Modellierungseffizienz zu verbessern. Polynom_Merkmale und Merkmale_Wenn Sie Interaktion verwenden, Funktion_selection_Es wird dringend empfohlen, den Schwellenwertparameter mit einem niedrigeren Wert zu definieren.
feature_selection_threshold float, default = 0.8 Schwellenwert für die Merkmalsauswahl (einschließlich neu erstellter polymorpher Merkmale). Je höher der Wert, desto größer der Funktionsbereich. Merkmale mit unterschiedlichen Werten, insbesondere wenn polymorphe Merkmale und Wechselwirkungen von Merkmal zu Merkmal verwendet werden_selection_Es wird empfohlen, mehrere Versuche mit dem Schwellenwert durchzuführen. Das Einstellen eines sehr niedrigen Werts kann effizient sein, kann jedoch zu einer Unteranpassung führen.
feature_interaction bool, default = False Wenn True festgelegt ist, interagiert (a) mit allen numerischen Variablen im Dataset, einschließlich polynomialer und trigonometrischer Features (falls erstellt).*b) Erstellen Sie dabei eine neue Funktion. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
feature_ratio bool, default = False Bei der Einstellung True wird das Verhältnis aller numerischen Variablen im Datensatz (a/b) Berechnen Sie, um ein neues Feature zu erstellen. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
interaction_threshold bool, default = 0.01 polynomial_Ähnlich wie beim Schwellenwert wird es verwendet, um eine neu erstellte, spärliche Matrix von Features durch Interaktion zu komprimieren. Features, deren Bedeutung basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation innerhalb der definierten Schwellenperzentile liegt, werden im Datensatz gespeichert. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht.
fix_imbalance bool, default = False Wenn das Dataset eine ungleichmäßige Verteilung der Zielklassen aufweist, beheben Sie dies_Sie kann mit dem Ungleichgewichtsparameter geändert werden. Bei der Einstellung True ist SMOTE standardmäßig aktiviert(Synthetic Minority Over-sampling Technique)Wird angewendet, um einen zusammengesetzten Datenpunkt für die Minderheitsklasse zu erstellen.
fix_imbalance_method obj, default = None fix_Setzen Sie das Ungleichgewicht auf True und beheben Sie es_imbalance_Wenn die Methode auf Keine gesetzt ist, werden Minderheitenklassen während der Kreuzvalidierung standardmäßig überabgetastet.'smote'Wird angewandt. Dieser Parameter ist'fit_resample'Unterstützt Methoden'imblearn'Jedes Modul kann akzeptiert werden.
data_split_shuffle bool, default = True Auf False setzen, um zu verhindern, dass Zeilen beim Aufteilen von Daten gemischt werden.
folds_shuffle bool, default = False Auf False setzen, um zu verhindern, dass Zeilen bei Verwendung der Kreuzvalidierung gemischt werden.
n_jobs int, default = -1 Gibt die Anzahl der Jobs an, die parallel ausgeführt werden sollen(Für Funktionen, die die Parallelverarbeitung unterstützen)-1 bedeutet, alle Prozessoren zu verwenden. Um alle Funktionen auf einem einzelnen Prozessor auszuführen, n_Setzen Sie Jobs auf Keine.
html bool, default = True Auf False setzen, um die Laufzeitanzeige des Monitors zu deaktivieren. Wenn Sie eine Umgebung verwenden, die HTML nicht unterstützt, müssen Sie sie auf False setzen.
session_id int, default = None Wenn Keine, wird ein zufälliger Startwert generiert und an das Informationsraster zurückgegeben. Alle Funktionen, die dann während des Experiments verwendet werden, erhalten dann eine eindeutige Nummer als Startwert. Dies kann zur Reproduzierbarkeit nach dem gesamten Experiment verwendet werden.
log_experiment bool, default = False Bei der Einstellung True werden alle Metriken und Parameter auf dem MLFlow-Server aufgezeichnet.
experiment_name str, default = None Der Name des zu protokollierenden Experiments. Wenn auf Keine gesetzt, standardmäßig'clf'Wird als Alias für den Experimentnamen verwendet.
log_plots bool, default = False Wenn True festgelegt ist, wird ein bestimmtes Diagramm als PNG-Datei in MLflow aufgezeichnet. Der Standardwert ist False.
log_profile bool, default = False Wenn True festgelegt ist, wird das Datenprofil auch in MLflow als HTML-Datei aufgezeichnet. Der Standardwert ist False.
log_data bool, default = False Bei der Einstellung True werden Trainings- und Testdaten als CSV aufgezeichnet.
silent bool, default = False Bei der Einstellung True ist keine Bestätigung des Datentyps erforderlich. Die gesamte Vorverarbeitung wird unter der Annahme eines automatisch abgeleiteten Datentyps durchgeführt. Die direkte Verwendung außerhalb etablierter Pipelines wird nicht empfohlen.
verbose Boolean, default = True Wenn verbose auf False gesetzt ist, wird das Informationsraster nicht gedruckt.
profile bool, default = False Bei true wird das Datenprofil für die explorative Datenanalyse in einem interaktiven HTML-Bericht angezeigt.

Regressionsregression PyCaret2.0

Parameter Erläuterung Einzelheiten
data {array-like, sparse matrix} Shape (n_samples, n_features)Wo n_Proben ist die Anzahl der Proben, n_Features ist die Anzahl der Features.
target string Der Spaltenname, der als Zeichenfolge übergeben werden soll.
train_size float, default = 0.7 Die Größe des Trainingssatzes. Standardmäßig 70 Daten%Wird zur Schulung und Überprüfung verwendet. Testen Sie den Rest der Daten/Wird für Holdout-Sets verwendet.
sampling bool, default = True Die Stichprobengröße beträgt 25,Über 000 Stichproben hinaus erstellt Pycaret Basisschätzer für verschiedene Stichprobengrößen aus dem Originaldatensatz. Dies gibt Leistungsdiagramme von R2-Werten auf verschiedenen Stichprobenebenen zurück, um eine geeignete Stichprobengröße für die Modellierung zu ermitteln. Als nächstes müssen Sie die gewünschte Stichprobengröße für das Training und die Validierung in der Pycaret-Umgebung eingeben. Probe eingeben_finalisieren, wenn die Größe kleiner als 1 ist_model()Verbleibender Datensatz (1) nur beim Aufruf-Probe) wird verwendet, um das Modell anzupassen.
sample_estimator object, default = None Wenn keine vorhanden ist, wird standardmäßig die lineare Regression verwendet.
categorical_features string, default = None Kategorisch, wenn der abgeleitete Datentyp falsch ist_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Verwenden Sie diesen Parameter zur Kategorisierung, wenn davon ausgegangen wird, dass der Typ von numerisch statt algorithmisch ist_features = ['column1']Sie können diesen Typ durch Übergeben überschreiben.
categorical_imputation string, default = 'constant' Wenn in der Kategorie-Feature-Menge ein fehlender Wert gefunden wird, wird ein bestimmtes "Nicht" gefunden._Es wird mit dem Wert "verfügbar" eingegeben. Eine weitere verfügbare Option ist'mode'Geben Sie in den fehlenden Wert mit dem häufigsten Wert im Trainingsdatensatz ein.
ordinal_features dictionary, default = None Ordnungszahl, wenn die Daten hierarchische Merkmale enthalten_Sie müssen mit dem Merkmalsparameter eine andere Codierung durchführen. Die Daten sind'low'、'medium'、'high'Hat eine kategoriale Variable mit dem Wert low< medium <Ordnungszahl, wenn bekannt, dass sie hoch ist_features = { 'column_name' : ['low', 'medium', 'high'] }Kann als übergeben werden. Die Reihenfolge der Liste sollte vom niedrigsten zum höchsten sein.
high_cardinality_features string, default = None Wenn Ihre Daten Merkmale mit hoher Kardinalität enthalten, können Sie sie auf eine niedrigere Ebene reduzieren, indem Sie sie als Liste mit Spaltennamen mit hoher Kardinalität übergeben. Die Feature-Komprimierung ist sehr hoch_cardinality_Verwenden Sie die in Methode definierte Methode.
high_cardinality_method string, default = 'frequency' Frequenz'frequency'Bei Einstellung auf wird der ursprüngliche Wert der Merkmalsmenge durch die Häufigkeitsverteilung ersetzt und quantifiziert. Eine andere verfügbare Methode ist "Clustering", bei dem die statistischen Attribute der Daten gruppiert und der ursprüngliche Wert des Features durch die Clusterbezeichnung ersetzt werden.
numeric_features string, default = None Wenn der abgeleitete Datentyp falsch ist, numerisch_Sie können Funktionen verwenden, um den abgeleiteten Typ zu überschreiben. Beim Ausführen des Setups'column1'Wenn der Typ von als Kategorie und nicht als Zahl abgeleitet wird, verwenden Sie diesen Parameter zur Numerierung_features = ['column1']Es kann durch Übergeben überschrieben werden.
numeric_imputation string, default = 'mean' Wenn in der numerischen Merkmalsmenge ein fehlender Wert gefunden wird, wird der Durchschnittswert der Merkmalsmenge zur Eingabe verwendet. Eine weitere verfügbare Option ist'median'Geben Sie in den Wert mit dem Medianwert des Trainingsdatensatzes ein.
date_features string, default = None Wenn die Daten eine DateTime-Spalte haben, die beim Setup nicht automatisch erkannt wird, Datum_features = 'date_column_name'Sie können diesen Parameter durch Übergeben verwenden. Es kann mit mehreren Datumsspalten arbeiten. Die Datumsspalte wird bei der Modellierung nicht verwendet. Stattdessen wird eine Feature-Extraktion durchgeführt und die Datumsspalte aus dem Dataset entfernt. Wenn die Datumsspalte einen Zeitstempel enthält, werden auch zeitbezogene Funktionen extrahiert.
ignore_features string, default = None Parameter ignorieren, wenn es Funktionen gibt, die für die Modellierung ignoriert werden sollten_Sie können es an Funktionen übergeben. Die abgeleiteten ID- und DateTime-Spalten werden automatisch so festgelegt, dass sie für Modellierungszwecke ignoriert werden.
normalize bool, default = False Bei der Einstellung True wurde der Parameter normalisiert_Der Feature-Space wird mithilfe einer Methode transformiert. Im Allgemeinen arbeiten lineare Algorithmen mit normalisierten Daten besser, die Ergebnisse können jedoch variieren.
normalize_method string, default = 'zscore' Definiert die für die Normalisierung verwendete Methode. Standardmäßig ist die Normalisierungsmethode'zscore'Ist eingestellt auf. Der Standard-Zscore ist z= (x - u) /Berechnet als s.
minmax minmax' : 0 -Skalieren und konvertieren Sie jedes Feature einzeln, sodass es im Bereich von 1 liegt.
maxabs maxabs':Der maximale Absolutwert jedes Features beträgt 1.Jedes Feature wird einzeln skaliert und konvertiert, sodass es zu 0 wird. Dies ist eine Datenverschiebung/Da es nicht zentriert, zerstört es nicht die Spparität.
robust robust':Jedes Feature wird entsprechend dem Bereich zwischen Quarkplättchen skaliert und konvertiert. Robuste Skalierer liefern häufig bessere Ergebnisse, wenn der Datensatz Ausreißer enthält.
transformation bool, default = False Setzen Sie diesen Wert auf True, um die Daten normaler zu machen/Die Multiplikatorumwandlung wird angewendet, um sie Gaußsch zu machen. Dies ist nützlich für die Modellierung von Problemen im Zusammenhang mit Heterogenität und anderen Situationen, in denen Normalität gewünscht wird. Die optimalen Parameter zur Stabilisierung der Dispersion und zur Minimierung der Dehnung werden nach der wahrscheinlichsten Methode geschätzt.
transformation_method string, default = 'yeo-johnson' Definiert die Konvertierungsmethode. Standardmäßig ist die Konvertierungsmethode'yeo-johnson'Ist eingestellt auf. Als weitere Option'quantile'Es gibt eine Konvertierung. Beide Transformationen transformieren den Funktionsumfang so, dass er einer Gaußschen oder Normalverteilung folgt. Beachten Sie, dass die Divisionstransformation nicht linear ist und die lineare Korrelation zwischen auf derselben Skala gemessenen Variablen verzerren kann.
handle_unknown_categorical bool, default = True Neu, wenn auf True gesetzt/Die unbekannte Kategorieebene der unsichtbaren Daten wird durch die häufigste oder am wenigsten häufige Ebene ersetzt, die in den Trainingsdaten trainiert wird. Diese Methode ist unbekannt_categorical_Im Methodenparameter definiert.
unknown_categorical_method string, default = 'least_frequent' Eine Methode zum Ersetzen einer unbekannten kategorialen Ebene unsichtbarer Daten. In der Methode'least_frequent'Oder'most_frequent'Kann eingestellt werden.
pca bool, default = False Wenn auf True gesetzt, pca_Die Dimensionsreduktion wird angewendet, um die Daten mithilfe der durch den Methodenparameter definierten Methode in einen Raum mit niedrigeren Dimensionen zu projizieren. Beim überwachten Lernen wird pca im Allgemeinen ausgeführt, wenn es sich um Räume mit hohen Merkmalen handelt oder wenn der Speicher eingeschränkt ist. Beachten Sie, dass nicht alle Datensätze mithilfe linearer PCA-Techniken effizient zerlegt werden können und das Anwenden von PCA zu Informationsverlust führen kann. Daher verschiedene pca, um seine Auswirkungen zu bewerten_Wir empfehlen, dass Sie mehrere Experimente mit Methoden durchführen.
pca_method string, default = 'linear' Das lineare Verfahren verwendet eine Singularitätszerlegung, um eine lineare Dimensionsreduktion durchzuführen. Andere verfügbare Optionen sind:
kernel Dimensionsreduzierung mit RVF-Kernel.
incremental Wenn der Datensatz, den Sie zerlegen möchten, zu groß ist, um in den Speicher zu passen'linear'Ersetzen Sie pca.
pca_components int/float, default = 0.99 pca_Wenn die Komponenten schwebend sind, werden sie als Zielprozentsatz behandelt, um die Informationen beizubehalten. pca_Wenn Komponenten Ganzzahlen sind, werden sie als die Anzahl der Features behandelt, die beibehalten werden sollen. pca_Die Komponenten müssen strengstens kleiner sein als die ursprünglichen Merkmale des Datensatzes.
ignore_low_variance bool, default = False Bei der Einstellung True werden alle Kategoriefeatures mit nicht statistisch signifikanten Abweichungen aus dem Datensatz entfernt. Die Varianz wird unter Verwendung des Verhältnisses eindeutiger Werte zur Anzahl der Proben und des Verhältnisses der häufigsten Werte zur Häufigkeit des zweithöchsten Werts berechnet.
combine_rare_levels bool, default = False Wenn auf True gesetzt, param selten_level_Alle Ebenen von Kategoriemerkmalen unterhalb des durch den Schwellenwert definierten Schwellenwerts werden als eine Ebene zusammengefasst. Es müssen mindestens zwei Stufen unter dem Schwellenwert liegen, damit dies wirksam wird. Selten_level_Der Schwellenwert repräsentiert die Perzentilverteilung der Pegelfrequenz. Im Allgemeinen wird diese Technik angewendet, um spärliche Matrizen aufgrund der großen Anzahl von Ebenen in kategorialen Merkmalen zu begrenzen.
rare_level_threshold float, default = 0.1 Eine Perzentilverteilung, die seltene Kategorien kombiniert. kombinieren_rare_Nur aktiviert, wenn die Ebenen auf True gesetzt sind.
bin_numeric_features list, default = None Wenn eine Liste numerischer Features übergeben wird, werden diese mithilfe von KMeans in kategoriale Features konvertiert. Die Anzahl der Cluster'sturges'Es wird auf der Grundlage des Gesetzes entschieden. Dies ist nur für Gaußsche Daten am besten geeignet und unterschätzt die Anzahl der Fächer für große nicht-Gaußsche Datensätze.
remove_outliers bool, default = False Bei der Einstellung True werden Ausreißer mithilfe der linearen PCA-Dimensionsreduktion mithilfe von Singularitätszerlegungstechniken aus den Trainingsdaten entfernt.
outliers_threshold float, default = 0.05 Prozentsatz der Ausreißer im Datensatz/Prozent ist der Parameter Ausreißer_Sie kann mithilfe des Schwellenwerts definiert werden. Standardmäßig 0.05 wird verwendet. Dies ist 0 für jede Seite des Endes der Verteilung.Dies bedeutet, dass 025 aus den Trainingsdaten gelöscht wird.
remove_multicollinearity bool, default = False Bei Einstellung auf True Multikollinearität_Variablen, die eine höhere Korrelation als der durch den Schwellenwertparameter definierte Schwellenwert aufweisen, werden gelöscht. Wenn die beiden Merkmale eine hohe Korrelation miteinander aufweisen, wird das Merkmal mit der niedrigsten Korrelation mit der Zielvariablen gelöscht.
multicollinearity_threshold float, default = 0.9 Der Schwellenwert, der zum Entfernen der korrelierten Merkmale verwendet wird. entfernen entfernen_Nur aktiviert, wenn Multikollinearität auf True gesetzt ist.
remove_perfect_collinearity bool, default = False Bei Einstellung auf True perfekte Co-Linearität(Korrelation=Funktionsbetrag von 1)Wird aus dem Datensatz entfernt und die beiden Funktionen sind 100%Korrelationしている場合、そのうちの1つがランダムにデータセットから削除されます。
create_clusters bool, default = False Bei der Einstellung True werden zusätzliche Funktionen erstellt, bei denen jede Instanz einem Cluster zugewiesen wird. Die Anzahl der Cluster ist Calinski-Bestimmt anhand einer Kombination von Harabasz- und Silhouette-Kriterien.
cluster_iter int, default = 20 Die Anzahl der Iterationen, die zum Erstellen des Clusters verwendet wurden. Jede Iteration repräsentiert die Größe des Clusters. erstellen erstellen erstellen_Nur gültig, wenn der Parameter cluster auf True gesetzt ist.
polynomial_features bool, default = False Bei der Einstellung True ist das Polynom in den numerischen Features des Datasets vorhanden._Ein neues Feature wird basierend auf der Kombination aller Polynome bis zu dem durch Gradparameter definierten Grad erstellt.
polynomial_degree int, default = 2 Die Reihenfolge der polymorphen Merkmale. Beispielsweise ist die Eingabeprobe zweidimensional[a, b]In Form von=Die polymorphen Merkmale von 2 sind wie folgt. 1, a, b, a^2, ab, b^2]Es wird.
trigonometry_features bool, default = False Bei der Einstellung True ist das Polynom in den numerischen Merkmalen des Datensatzes vorhanden_Eine neue Merkmalsmenge wird basierend auf der Kombination aller Dreiecksfunktionen bis zu der durch den Gradparameter definierten Reihenfolge erstellt.
polynomial_threshold float, default = 0.1 Es wird verwendet, um eine spärliche Matrix aus polymorphen Merkmalen und dreieckigen Merkmalmerkmalen zu komprimieren. Polygonale und dreieckige Funktionsmerkmale, deren Bedeutung von Merkmalen, die auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation basieren, innerhalb des definierten Schwellenperzentils liegen, bleiben im Datensatz erhalten. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht.
group_features list or list of list, default = None Gruppieren, wenn Features enthalten sind, deren Features sich auf das Dataset beziehen_featuresparam kann zur statistischen Merkmalsextraktion verwendet werden. Zum Beispiel numerische Merkmale, in denen Datensätze miteinander in Beziehung stehen ('Col1', 'Col2', 'Col3')Wenn Sie eine Gruppe haben_Durch Übergeben einer Liste mit Spaltennamen unter Features können Sie statistische Informationen wie Mittelwert, Median, Modus und Standardabweichung extrahieren.
group_names list, default = None group_Wenn Features übergeben werden, gruppieren Sie sie als Liste mit Zeichenfolgen_Sie können den Gruppennamen im Parameter names übergeben. Gruppe_Die Länge der Namensliste ist Gruppe_Muss der Länge der Features entsprechen. Wenn die Längen nicht übereinstimmen oder der Name nicht übergeben wird, gruppieren Sie_1, group_Neue Funktionen werden nacheinander benannt, z. B. 2.
feature_selection bool, default = False Wenn True festgelegt ist, wird eine Teilmenge von Features mithilfe einer Kombination verschiedener Techniken zur Sortierbedeutung ausgewählt, z. B. Zufallsstruktur, Adaboost und lineare Korrelation mit Zielvariablen. Die Größe der Teilmenge ist ein Merkmal_selection_Es kommt auf param an. Dies wird üblicherweise verwendet, um den Merkmalsraum einzuschränken und die Modellierungseffizienz zu verbessern. Polynom_Merkmale und Merkmale_Wenn Sie Interaktion verwenden, Funktion_selection_Es wird dringend empfohlen, den Schwellenwertparameter mit einem niedrigeren Wert zu definieren.
feature_selection_threshold float, default = 0.8 Schwellenwert für die Merkmalsauswahl (einschließlich neu erstellter polymorpher Merkmale). Je größer der Wert, desto mehr Funktionen. Merkmale mit unterschiedlichen Werten, insbesondere bei Verwendung polymorpher Merkmale und Interaktionen zwischen Merkmalen_selection_Wir empfehlen, dass Sie den Schwellenwert mehrmals verwenden. Das Einstellen eines sehr niedrigen Werts ist effizient, kann jedoch zu einer Unteranpassung führen.
feature_interaction bool, default = False Wenn True festgelegt ist, interagiert (a) mit allen numerischen Variablen im Dataset, einschließlich polynomialer und trigonometrischer Features (falls erstellt).*b) Erstellen Sie dabei eine neue Funktion. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
feature_ratio bool, default = False Bei der Einstellung True wird das Verhältnis aller numerischen Variablen im Datensatz (a/b) Berechnen Sie, um ein neues Feature zu erstellen. Diese Funktion ist nicht skalierbar und funktioniert möglicherweise nicht wie erwartet für Datasets mit großen Funktionsbereichen.
interaction_threshold bool, default = 0.01 polynomial_Ähnlich wie beim Schwellenwert wird es verwendet, um eine neu erstellte, spärliche Matrix von Features durch Interaktion zu komprimieren. Features, deren Bedeutung basierend auf einer Kombination aus zufälliger Gesamtstruktur, AdaBoost und linearer Korrelation innerhalb der definierten Schwellenperzentile liegt, werden im Datensatz gespeichert. Die restlichen Funktionen werden vor der weiteren Verarbeitung gelöscht.
transform_target bool, default = False Wenn auf True gesetzt, transformieren Sie_target_Konvertiert die Zielvariable wie im Methodenparameter definiert. Die Zieltransformation wird getrennt von der Feature-Transformation angewendet.
transform_target_method string, default = 'box-cox' Box-cox'und'yeo-johnson'Das Gesetz wird unterstützt. Box-Cox verlangt, dass die Eingabedaten genau positiv sind, aber Yeo-Johnson unterstützt sowohl positive als auch negative Daten. verwandeln_target_Methode ist'box-cox'Und wenn die Zielvariable einen negativen Wert enthält, die Methode intern, um Ausnahmen zu vermeiden'yeo-johnson'Ist gezwungen zu.
data_split_shuffle bool, default = True Auf False setzen, um zu verhindern, dass Zeilen beim Aufteilen von Daten gemischt werden.
folds_shuffle bool, default = True Auf False setzen, um zu verhindern, dass Zeilen bei Verwendung der Kreuzvalidierung gemischt werden.
n_jobs int, default = -1 Gibt die Anzahl der Jobs an, die parallel ausgeführt werden sollen(Für Funktionen, die die Parallelverarbeitung unterstützen)-1 bedeutet, alle Prozessoren zu verwenden. Um alle Funktionen auf einem einzelnen Prozessor auszuführen, n_Setzen Sie Jobs auf Keine.
html bool, default = True Auf False setzen, um die Laufzeitanzeige des Monitors zu deaktivieren. Wenn Sie eine Umgebung verwenden, die HTML nicht unterstützt, müssen Sie sie auf False setzen.
session_id int, default = None Wenn Keine, wird ein zufälliger Startwert generiert und an das Informationsraster zurückgegeben. Alle Funktionen, die dann während des Experiments verwendet werden, erhalten dann eine eindeutige Nummer als Startwert. Dies kann zur Reproduzierbarkeit nach dem gesamten Experiment verwendet werden.
log_experiment bool, default = False Bei der Einstellung True werden alle Metriken und Parameter auf dem MLFlow-Server aufgezeichnet.
experiment_name str, default = None Der Name des zu protokollierenden Experiments. Wenn auf Keine gesetzt, standardmäßig'reg'Wird als Alias für den Experimentnamen verwendet.
log_plots bool, default = False Wenn True festgelegt ist, wird ein bestimmtes Diagramm als PNG-Datei in MLflow aufgezeichnet. Der Standardwert ist False.
log_profile bool, default = False Wenn True festgelegt ist, wird das Datenprofil auch in MLflow als HTML-Datei aufgezeichnet. Der Standardwert ist False.
log_data bool, default = False Bei der Einstellung True werden Trainings- und Testdaten als CSV aufgezeichnet.
silent bool, default = False Bei der Einstellung True ist keine Bestätigung des Datentyps erforderlich. Die gesamte Vorverarbeitung wird unter der Annahme eines automatisch abgeleiteten Datentyps durchgeführt. Die direkte Verwendung außerhalb etablierter Pipelines wird nicht empfohlen.
verbose Boolean, default = True Wenn verbose auf False gesetzt ist, wird das Informationsraster nicht gedruckt.
profile bool, default = False Bei true wird das Datenprofil für die explorative Datenanalyse in einem interaktiven HTML-Bericht angezeigt.

Recommended Posts

Über die Argumente der Setup-Funktion von PyCaret
Über Funktionsargumente (Python)
Informationen zur Entfaltungsfunktion
Über die Aufzählungsfunktion (Python)
Über die Komponenten von Luigi
Über die Funktionen von Python
Über den Rückgabewert von pthread_mutex_init ()
Über den Rückgabewert des Histogramms.
Über den Grundtyp von Go
Über die Obergrenze von Threads-max
Über das Verhalten von Yield_per von SqlAlchemy
Über die Größe der Punkte in Matplotlib
Informationen zur Grundlagenliste der Python-Grundlagen
Denken Sie grob über die Verlustfunktion nach
[Python3] Schreiben Sie das Codeobjekt der Funktion neu
Über die Normalgleichung der linearen Regression
Ich wollte vorsichtig mit dem Verhalten der Standardargumente von Python sein
Ich habe die Pivot-Table-Funktion von Pandas ausprobiert
Informationen zur Genauigkeit der Berechnungsmethode für das Umfangsverhältnis von Archimedes
Über das Verhalten von copy, deepcopy und numpy.copy
Über den Test
Informationen zur X-Achsen-Notation des Balkendiagramms von Matplotlib
Besiege die Wahrscheinlichkeitsdichtefunktion der Normalverteilung
Holen Sie sich den Aufrufer einer Funktion in Python
Über die Verarbeitungsgeschwindigkeit von SVM (SVC) von Scikit-Learn
Schreiben Sie eine Notiz über die Python-Version von Python Virtualenv
Einrichtung von pyenv-virtualenv
Korrigieren Sie die Argumente der in map verwendeten Funktion
Über die Entwicklungsinhalte des maschinellen Lernens (Beispiel)
[Hinweis] Über die Rolle des Unterstrichs "_" in Python
Informationen zum Verhalten der Warteschlange während der Parallelverarbeitung
Über die Warteschlange
Denken Sie an das Rack und WSGI der nächsten Generation
Über das Testen bei der Implementierung von Modellen für maschinelles Lernen
#Eine Funktion, die den Zeichencode einer Zeichenfolge zurückgibt
Über die Ineffizienz der Datenübertragung im luigi on-memory
Zeichnen auf Jupyter mit der Plot-Funktion von Pandas
Ich habe das Argument class_weight von Chainers Funktion softmax_cross_entropy untersucht.
Über die übersichtliche Anordnung in der Importreihenfolge von Flake8
Tweet die Niederschlagswahrscheinlichkeit als Teil der Funktion des Bots
Eine Geschichte über die Änderung des Master-Namens von BlueZ
Wie man das Dokument der magischen Funktion (Linienmagie) trifft
Persönliche Hinweise zur Integration von vscode und anaconda
Ein Memorandum über die Umsetzung von Empfehlungen in Python
Der Beginn von cif2cell
Über alles von numpy
Über die Zuweisung von numpy.ndarray
der Zen von Python
Die erste GOLD "Funktion"
Die Geschichte von sys.path.append ()
Über den Servicebefehl
Nicht überraschend bekannt! ?? Was ist mit den eingebauten Funktionsargumenten? Aus welcher Schule kommst du? [Python]
Zusammenfassung der Python-Argumente
Über Variable von Chainer
Über die Verwirrungsmatrix
Über das Besuchermuster
Wörterbuch der Schlüsselwortargumente