Ich möchte mitteilen, was ich gelernt habe, während ich entsprechende Korrekturen und Ergänzungen vornehme.

Derzeit konzentriere ich mich hauptsächlich auf die Regressionsaufgabe. Bitte beachten Sie, dass es bei anderen Aufgaben zu Abweichungen bei den Spezifikationen kommen kann. (Soweit ich grob überprüft habe, scheinen die Spezifikationen zwischen den Aufgaben fast gleich zu sein.)

Über dieses Dokument

Konzentration auf die ** Vorverarbeitung ** von PyCaret. Grundsätzlich geht es nicht um das Modellieren und Stimmen.

Ich schreibe, während ich es tatsächlich verschiebe und den ursprünglichen Quellcode lese. https://github.com/pycaret/pycaret

Bitte beachten Sie, dass einige Fehler auftreten können.

Implementierungsannahmen

Es wird davon ausgegangen, dass verschiedene Bibliotheken wie folgt importiert werden.

import pandas as pd
import numpy as np

Was ist PyCaret?

Eine Bibliothek, die das Training von Datenvorverarbeitungs- und maschinellen Lernmodellen automatisiert und in einer Umgebung mit wenig Code bereitgestellt werden kann. https://pycaret.org/

Die Installation ist ein einzelner Pip-Befehl. Sehr leicht. ..

pip install pycaret

In diesem Artikel finden Sie eine Übersicht und Informationen zum Implementieren einer Reihe von Pipelines. https://qiita.com/tani_AI_Academy/items/62151d7e151024733919

So führen Sie die Vorverarbeitung durch

In PyCaret können Sie die Vorverarbeitung angeben, die Sie mit Parametern ausführen möchten. Darüber hinaus bestätigt PyCaret dem Benutzer vor dem Betrieb einige Verarbeitungsinhalte. Der Betriebsablauf ist wie folgt.

Rufen Sie die Dateneingabe- / Vorverarbeitungsausführungsfunktion auf

Durch Aufrufen von "setup ()" des Pakets, das für jede Aufgabe wie Klassifizierung und Regression vorbereitet wurde, wird die folgende Vorverarbeitung ausgeführt.

Datenbereinigung und Datenkonvertierung
Aufteilung der Zug- / Testdaten
Datenerfassung

** Die Vorverarbeitung, die PyCaret verarbeiten soll, kann angegeben werden, indem sie als Argument für setup () ** angegeben wird. Als Argument wird nur "Ziel (Zielvariable)" benötigt.

In der folgenden Erklärung möchte ich die an PyCaret angehängten Daten erfassen und ausführen. Sie können die an PyCaret angehängten Daten auf der Originalseite überprüfen. https://pycaret.org/get-data/

Natürlich können Sie auch Ihre eigenen Daten mit Pandas lesen und verwenden.

Der Code zum Durchführen der Datenerfassung und Vorverarbeitung lautet wie folgt. Hier wird nur das Argument "Ziel" angegeben. Andere Optionen standardmäßig.

from pycaret.datasets import get_data
dataset = get_data("diamond")

from pycaret.regression import *
setup(dataset, target="Price")

Obwohl der Rückgabewert hier übergeben wird, werden mehrere Werte wie vorverarbeitete Daten zurückgegeben. Überprüfen Sie für den Rückgabewert [Details unten beschrieben](Die Daten nach der Vorverarbeitung werden als Rückgabewert von setup () zurückgegeben).

Überprüfen Sie das Schätzergebnis des Typs jeder Variablen

Wenn Sie setup () ausführen, leitet ** PyCaret zuerst den Typ (Datentyp) jeder Variablen ab und fordert den Benutzer auf, das Schätzergebnis zu überprüfen und die Verarbeitung fortzusetzen **. Wenn das Ergebnis der Typschätzung korrekt ist, drücken Sie die Eingabetaste im Bearbeitungsfeld im blauen Rahmen der Abbildung, um den Vorgang fortzusetzen. Wenn der abgeleitete Typ falsch ist, können Sie den Vorgang unterbrechen, indem Sie "quit" eingeben.

Variablen mit falscher Typschätzung können durch explizite Angabe des Typs in setup () aufgelöst werden. (Einzelheiten finden Sie unter [Inhalt unten beschrieben](Numerische Merkmale, kategoriale Merkmale).)

Überprüfen Sie die Ausführungszusammenfassung der Vorverarbeitung

Wenn die Ausführung von setup () abgeschlossen ist, werden die Verarbeitungsinhalte im Datenrahmenformat ausgegeben.

	Description	Value
0	session_id	3104
1	Transform Target	False
2	Transform Target Method	None
3	Original Data	(6000, 8)
4	Missing Values	False
5	Numeric Features	1
6	Categorical Features	6
7	Ordinal Features	False
8	High Cardinality Features	False
9	High Cardinality Method	None
10	Sampled Data	(6000, 8)
11	Transformed Train Set	(4199, 28)
12	Transformed Test Set	(1801, 28)
13	Numeric Imputer	mean
14	Categorical Imputer	constant
15	Normalize	False
16	Normalize Method	None
17	Transformation	False
18	Transformation Method	None
19	PCA	False
20	PCA Method	None
21	PCA Components	None
22	Ignore Low Variance	False
23	Combine Rare Levels	False
24	Rare Level Threshold	None
25	Numeric Binning	False
26	Remove Outliers	False
27	Outliers Threshold	None
28	Remove Multicollinearity	False
29	Multicollinearity Threshold	None
30	Clustering	False
31	Clustering Iteration	None
32	Polynomial Features	False
33	Polynomial Degree	None
34	Trignometry Features	False
35	Polynomial Threshold	None
36	Group Features	False
37	Feature Selection	False
38	Features Selection Threshold	None
39	Feature Interaction	False
40	Feature Ratio	False
41	Interaction Threshold	None

In dieser Tabelle können Sie ** die Datengröße, die Anzahl der Features und die Angabe verschiedener Vorverarbeitungen überprüfen **. Standardmäßig sind die meisten Optionen deaktiviert (False oder None).

Wenn Sie im Argument von "setup ()" eine Option angeben, wird das entsprechende Element "True" und ist farbig.

In den folgenden Abschnitten werden wir den Inhalt verschiedener Elemente erläutern.

Informationen zur Sitzung

session_id

	Description	Value
0	session_id	3104

Es ist eine Kennung, wenn PyCaret ausgeführt wird, und es scheint, dass es intern als Startwert für Zufallszahlen verwendet wird. Wenn nicht angegeben, wird es zufällig bestimmt.

Es kann durch das Argument "session_id" von "setup ()" angegeben werden. Geben Sie diesen Wert an, um die Reproduzierbarkeit bei wiederholter Ausführung zu gewährleisten. (Es ist ein Bild in der Nähe von "random_state" in scicit-learn.)

setup(dataset, target="Price", session_id=123)

Informationen zu Eingabedaten

Original Data

	Description	Value
3	Original Data	(6000, 8)

Die Größe (Form) der Eingabedaten wird ausgegeben.

Wenn ich es tatsächlich überprüfe, ist es sicherlich die gleiche Größe.

dataset.shape

#Ausführungsergebnis
# (6000, 8)

Missing Values

	Description	Value
4	Missing Values	False

Ob die Eingabedaten fehlen oder nicht, wird ausgegeben. "False" wird ausgegeben, da die Daten dieses Mal keine Fehler enthalten.

Wenn ein Defekt vorliegt, ist dieser Artikel "True".

Wenn ein Fehler vorliegt, wird der Fehler in ** setup () ** eingetragen. Die Spezifikation der Fehlerfüllmethode wird später beschrieben.

Numerische Merkmale und kategoriale Merkmale

	Description	Value
5	Numeric Features	1
6	Categorical Features	6

Geschätzte Werte für die Anzahl der fortlaufenden Werte und die Anzahl der Merkmale in der Kategorie werden ausgegeben.

Es kann explizit durch die Argumente "numeric_features" und "categoryical_features" von "setup ()" angegeben werden.

setup(dataset, target="Price",
        categorical_features=["Cut", "Color", "Clarity", "Polish", "Symmetry", "Report"], 
        numeric_features=["Carat Weight"])

Wenn im obigen Dialogfeld zur Bestätigung der PyCaret-Typschätzung eine Variable vorhanden ist, deren Typschätzung falsch ist, geben Sie diese explizit mit diesem Argument an. ** ** **

Informationen zur Datenaufteilung von Zug / Test

Transformed Train Set、Transformed Test Set

	Description	Value
11	Transformed Train Set	(4199, 28)
12	Transformed Test Set	(1801, 28)

Die Größe jeder Nachteilung wird in die Zug- / Testdaten ausgegeben. Die Teilungsrate von Zug- / Testdaten kann durch das Argument "train_size" von "setup ()" angegeben werden. Der Standardwert ist 0,7.

Die Anzahl der Spalten unterscheidet sich von den Eingabedaten, da die Anzahl der Features nach der Vorverarbeitung angezeigt wird. (Dieses Mal hat sich die Anzahl der Merkmale aufgrund der Vorbehandlung von 7 auf 28 erhöht.)

Informationen zur Datenerfassung

Sampled Data

	Description	Value
10	Sampled Data	(6000, 8)

Wenn Daten in `` setup () `abgetastet werden, wird die Anzahl der Daten nach dem Abtasten ausgegeben. ** PyCaret fordert Sie auf, Daten abzutasten und eine Reihe von Vorgängen auszuführen, wenn die Anzahl der Datenzeilen größer als 25.000 ist. ** ** **

Wenn Sie setup () für Daten mit mehr als 25.000 Zeilen ausführen, wird das Dialogfeld zur Bestätigung der Stichprobenausführung angezeigt, nachdem das Dialogfeld zur Bestätigung der Typschätzung ausgeführt wurde. Geben Sie beim Abtasten den Prozentsatz der abzutastenden Daten in das Bearbeitungsfeld im blauen Rahmen ein. Wenn Sie die gesamte Anzahl von Zeilen ohne Abtastung verwenden möchten, lassen Sie diese leer und drücken Sie die Eingabetaste.

(Für Regressionsaufgaben)

(Für Klassifizierungsaufgaben)

Die hier gezeichnete Grafik zeigt einen Hinweis auf die Verschlechterung der Genauigkeit aufgrund der Probenahme.

Für die Regressionsaufgabe eine grafische Darstellung der Entscheidungskoeffizienten (standardmäßig im linearen Regressionsmodell)
In der Klassifizierungsaufgabe Diagramme verschiedener Indikatoren (standardmäßig logistisches Regressionsmodell)

Das für dieses Diagramm verwendete Modell kann im Argument "sample_estimator" von "setup ()" angegeben werden. Der Code zum Angeben von RandomForestRegressor befindet sich beispielsweise unten.

from sklearn.ensemble import RandomForestRegressor

traffic = get_data("traffic")
setup(traffic, target="traffic_volume", sample_estimator=RandomForestRegressor())

Sie können diese Funktion auch deaktivieren, indem Sie das Argument "Sampling" von "setup ()" angeben. (Es wird nicht bestätigt, ob die Probenahme ausgeführt wird oder nicht, und die Verarbeitung wird unter Verwendung aller Daten fortgesetzt.)

(Andere) Methoden zur Datenbereinigung und Verarbeitung der Merkmalsmengenumrechnung

Bei anderen Elementen handelt es sich um Informationen darüber, ob die Datenbereinigung und die Verarbeitung der Merkmalsmengenkonvertierung ausgeführt werden, und um die Methode. Im nächsten Kapitel werden die entsprechenden Prozesse erläutert.

Datenbereinigung und Feature-Konvertierungsprozess

Wir werden den Verarbeitungsinhalt und die Spezifikationsmethode berücksichtigen.

Die Daten nach der Vorverarbeitung werden als Rückgabewert von setup () zurückgegeben.

Die vorverarbeiteten Daten und die Verarbeitungspipeline werden zurückgegeben. Es scheint, dass es von der Art der Aufgabe abhängt, die Sie lösen möchten.

`regression`


X, y, X_train, X_test, y_train, y_test, seed, prep_pipe, target_inverse_transformer, experiment__ \
    = setup(dataset, target="Price")

`classification`


from pycaret.classification import *

dataset = get_data('credit')
X, y, X_train, X_test, y_train, y_test, seed, prep_pipe, experiment__ \
    = setup(dataset, target = 'default')

Der Rückgabewert unterscheidet sich geringfügig zwischen Regression und Klassifizierung. ** Die Daten nach der Vorverarbeitung werden an X und y zurückgegeben **, sodass Sie die spezifischen Verarbeitungsergebnisse überprüfen können.

Ist es möglich, die Daten nach der Vorverarbeitung durch PyCaret selbst zu verarbeiten und auf PyCaret zurückzusetzen? Ist derzeit unbekannt.

Ich möchte weiter nachforschen.

Ausschluss der Merkmalsmenge

Sie können festlegen, dass die Features bei der Vorverarbeitung und der anschließenden Modellierung ausgeschlossen werden.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

ignore_features (Listentyp der Zeichenfolge, Standard = Keine)
Geben Sie den Spaltennamen des Feature-Betrags an, den Sie in der Liste ausschließen möchten.

Referenz

** ID und Datum / Uhrzeit werden bei der Modellierung standardmäßig ausgeschlossen **. Wenn die Datumsspalte nicht als Datum erkannt wird, können Sie sie anscheinend explizit mit dem Argument "date_features" angeben.

Auch wenn die korrekten Spezifikationen bestätigt werden, wird eine automatisch ausgeschlossen, selbst wenn Spalten mit genau denselben Daten vorhanden sind.

Den Mangel füllen

Interpoliert die Fehler auf die angegebene Weise.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

numeric_imputation (Zeichenfolgentyp, Standard = 'Mittelwert')
Gibt die Methode zum Ausfüllen der fehlenden Daten an.
Sie können "Mittelwert" oder "Median" angeben.
'mean' füllt die Lücke mit dem Mittelwert.
'Median' füllt die Lücke mit dem Median.

categoryical_imputation (Zeichenfolgentyp, Standard = 'Konstante')
Gibt an, wie die fehlenden Elemente für die Kategoriedaten ausgefüllt werden sollen.
Sie können "Konstante" oder "Modus" angeben.
Füllen Sie 'Konstante' immer mit der Zeichenfolge "not_available" aus.
Füllen Sie den 'Modus' mit dem häufigsten Wert für jede Merkmalsmenge aus.

Referenz

Derzeit ist es nicht möglich, für jede Spalte anzugeben, und es scheint, dass alle von einer einheitlichen Methode verarbeitet werden.

Sequentielle Datencodierung

Die Etikettenkonvertierung erfolgt durch Angabe der Spalte, die Sie als Sequenzdaten definieren möchten.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

ordinal_features (Wörterbuchtyp, Standard = Keine)
Geben Sie die Reihenfolge der Spaltennamen und Werte der Bestelldaten im Wörterbuchformat an.

Geben Sie mit dem folgenden Bild an. ordinal_features = { 'column_name' : ['low', 'medium', 'high'] }

Geben Sie im Werteteil der Wörterbuchdaten die Werte in aufsteigender Reihenfolge der Auftragsdaten an.

Funktionsnormalisierung

Normalisieren Sie jede Feature-Menge.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

normalisieren (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

normalize_method (Zeichenfolgentyp, Standard = 'zscore')
Definiert die Methode (eine der folgenden), die für die Normalisierung verwendet wird.
'zscore': Berechnet als z = (x --u) / s durch eine als Standardisierung bezeichnete Technik.
'minmax': Skaliert mit einer Technik namens Min-Max-Skalierung auf den Bereich 0-1.
'maxabs': Skaliert die maximalen und minimalen absoluten Werte auf 1.
`robust ': Skaliert relativ zum Quadranten der Daten.

Referenz

In diesem Artikel finden Sie Informationen zur 'Robust'-Skalierung. https://qiita.com/unhurried/items/7a79d2f3574fb1d0cc27

Wenn der Datensatz Ausreißer enthält, scheint die 'Robust'-Skalierung stark zu sein.

Für andere Skalierungen ist dieser Artikel hilfreich. https://qiita.com/Umaremin/items/fbbbc6df11f78532932d

Im Allgemeinen sind lineare Algorithmen bei Normalisierung tendenziell genauer, dies ist jedoch nicht immer der Fall und erfordert möglicherweise mehrere Experimente.

Integration seltener Werte in kategoriale Variablen

In der kategorialen Variablen werden die Kategorien, die unter dem angegebenen Schwellenwert liegen, zu einer Kategorie zusammengeführt.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

combin_rare_levels (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

rar_level_threshold (Float-Typ, Standard = 0,1)
Geben Sie den Schwellenwert an, der als seltener Wert betrachtet werden soll.
Kombinieren Sie alle Kategorien, deren Häufigkeit unter dem Schwellenwert liegt, zu einer Kategorie.
Nur gültig, wenn zwei oder mehr Kategorien unterhalb des Schwellenwerts liegen.
Integrierte Kategorien werden mit Namen wie "XXX_others_infrequent" definiert.

Referenz

Im Allgemeinen vermeidet dieses Verfahren den Fall, dass eine kategoriale Variable eine große Anzahl von Kategorien aufweist und in eine Dummy-Variable umgewandelt wird, um eine dünn besetzte Matrix zu werden.

Binning von numerischen Daten

Fasst die Merkmalsmenge numerischer Daten zusammen.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

bin_numeric_features (Listentyp der Zeichenfolge, Standard = Keine)
Geben Sie den Spaltennamen der Feature-Menge für numerische Daten an, die Sie in einer Liste ablegen möchten.

Referenz

Intern ist es ein Image, auf dem sklearn.preprocessing.KBinsDiscretizer ausgeführt wird. (Es scheint, dass ein Algorithmus verwendet wird, der die eindimensionale k-means-Methode verwendet.)

Ich verstehe die Details nicht, wie man die Anzahl der Behälter bestimmt, deshalb würde ich gerne in Zukunft studieren.

Entfernung von Ausreißern

Entfernt Ausreißer aus Zugdaten.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

remove_outliers (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

outiers_threshold (Float-Typ, Standard = 0,05)
Gibt den Prozentsatz der Ausreißer im Datensatz an.
Wenn Sie beispielsweise den Standardwert 0,05 angeben, werden 0,025% der Werte auf beiden Seiten des Endes der Verteilung entfernt.

Es scheint, dass Singularwertzerlegung und PCA für die interne Verarbeitung verwendet werden. * Ich verstehe die Details nicht, deshalb würde ich gerne in Zukunft studieren. Entfernen von Multi-Co Entfernt den Merkmalsbetrag, der Multi-Co verursachen kann (multiple Co-Linearität). Sie kann ausgeführt werden, indem Sie dem Parameter setup () das folgende Argument geben.

remove_multicollinearity (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

multicollinearity_threshold (Float-Typ, Standard = 0,9)
Variablen mit einer Interkorrelation, die höher als der durch diesen Parameter definierte Schwellenwert ist, werden gelöscht.
(Es scheint, dass derjenige mit der niedrigsten Korrelation mit der Zielvariablen aus den beiden Merkmalsgrößen gelöscht wird.)

Referenz

Weitere Informationen zu Marco finden Sie in diesem Artikel. https://qiita.com/ynakayama/items/36b7c1640e6a02ce2e00

Merkmalsquantifizierung der Klassenringergebnisse

Das Clustering wird unter Verwendung jeder Merkmalsmenge durchgeführt, und die Klassenbezeichnung jedes Datensatzes wird als neue Merkmalsmenge hinzugefügt.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

create_clusters (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

cluster_iter (int type, default = 20)
Geben Sie die Anzahl der Iterationen an, wenn Sie die Anzahl der Cluster bestimmen.

Referenz

Die Anzahl der Cluster scheint unter Verwendung einer Kombination von Calinski Harabasz- und Silhouette-Kriterien bestimmt zu werden.

Für den Calinski Harabasz-Standard und den Silhouette-Standard ist dieser Artikel hilfreich. https://qiita.com/yasaigirai/items/ec3c3aaaab5bc9b930a2

Entfernen von Features durch Datenverteilung

Entfernen Sie Features mit Abweichungen, die statistisch nicht signifikant sind.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

ignore_low_variance (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

Referenz

Die Datenverteilung hier scheint unter Verwendung des Verhältnisses von eindeutigen Werten (eindeutigen Werten) in allen Stichproben berechnet zu werden. Ist es ein Bild, das für einen Ausschluss in Frage kommt, weil davon ausgegangen wird, dass die Varianz umso geringer ist, je mehr "der gleiche Wert" in einer bestimmten Variablen enthalten ist?

Ich verstehe die Details nicht, deshalb würde ich gerne in Zukunft studieren.

Generierung von Interaktionsfunktionen

Generiert Interaktionsfunktionen unter Verwendung der angegebenen Parameter.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

polynomial_features (Bool-Typ, Standard = False)
Wenn True angegeben ist, wird eine neue Merkmalsmenge generiert, indem die Polynome aller Merkmalsgrößen für numerische Daten kombiniert werden.
Die Reihenfolge des Polynoms wird durch den Parameter polynomial_degree angegeben.
Die generierten Features, die als unbedeutend eingestuft werden, werden jedoch ausgeschlossen.
Legen Sie den Beurteilungsschwellenwert mit polynomial_threshold fest.

trigonometry_features (Bool-Typ, Standard = False)
Wenn True angegeben ist, wird eine neue Merkmalsmenge generiert, indem die Dreiecksfunktionen aller Merkmalsgrößen für numerische Daten kombiniert werden.
Geben Sie die Reihenfolge und den Schwellenwert wie bei polynomial_features an.

polynomial_degree (int type, default = 2)
Gibt die Reihenfolge der polymorphen Merkmale an.

polynomial_threshold (Float-Typ, Standard = 0,1)
Geben Sie den Schwellenwert an, um zu bestimmen, ob der neu generierte Feature-Betrag beibehalten werden soll.
(Die Beurteilungsmethode finden Sie unter "Referenz" unten.)

Wenn die Eingabe beispielsweise zwei Variablen [a, b] ist, wird durch Angabe von polynomial_degree = 2 die Merkmalsmenge [1, a, b, a ^ 2, ab, b ^ 2] generiert.

Darüber hinaus können Sie die Menge der Interaktionsfunktionen weiter angeben. Generiert Interaktionsfunktionen erster Ordnung für alle numerischen Datenfunktionen, einschließlich Dummy-Variablenfunktionen für kategoriale Variablen und Funktionen, die durch polynomial_features und trigonometry_features generiert werden.

feature_interaction (Bool-Typ, Standard = False)
Wenn True angegeben ist, wird die Interaktion (a * b) berechnet und als neue Feature-Menge generiert.
Die generierten Features, die als unbedeutend eingestuft werden, werden jedoch ausgeschlossen.
Legen Sie den Beurteilungsschwellenwert mit polynomial_threshold fest.

Interaction_Threshold (Bool-Typ, Standard = False)
Wenn True angegeben ist, wird das Verhältnis (a / b) berechnet und als neue Merkmalsmenge generiert.
Geben Sie den Schwellenwert sowie feature_interaction an.

Interaction_Threshold (Bool-Typ, Standard = 0,01)
Geben Sie den Schwellenwert an, um zu bestimmen, ob der neu generierte Feature-Betrag beibehalten werden soll.
(Die Beurteilungsmethode finden Sie unter "Referenz" unten.)

Referenz

Informationen zu Polynomschwelle und Interaktionsschwelle Indikatoren, die mit Schwellenwerten verglichen werden sollen, sind von Bedeutung, basierend auf mehreren Kombinationen wie Zufallsstruktur, AdaBoost und linearer Korrelation.

Ich verstehe die Details nicht, deshalb würde ich gerne in Zukunft studieren.

Erstellen Sie für trigonometry_features buchstäblich Features mit trigonalen Funktionen (sin, cos, tan)? Ist es?

Ich verstehe die Details nicht, deshalb würde ich gerne in Zukunft studieren.

Bitte beachten Sie, dass diese Funktion für Datasets mit einem großen Funktionsbereich möglicherweise ineffizient ist.

Generierung von Gruppenfunktionen

Durch Angabe verwandter Merkmale im Datensatz werden darauf basierende statistische Merkmale extrahiert. Eine neue Merkmalsmenge wird generiert, indem die folgenden aggregierten Werte zwischen den angegebenen Merkmalsmengen berechnet werden.

Mindestwert
Maximalwert
Durchschnittswert
Median
Häufigster Wert
Standardabweichung

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

group_features (Listentyp der Zeichenfolge oder Listentyp einschließlich Liste, Standard = Keine)
Geben Sie den Spaltennamen des Feature-Betrags für numerische Daten an, für den Sie einen Gruppen-Feature-Betrag (verwandt) generieren möchten.

Gruppennamen (Listentyp, Standard = Keine)
Jeder Gruppenname kann als Zeichenfolge angegeben werden.
Jeder aggregierte Wert erhält einen Spaltennamen mit dem Bild "Gruppenname_Min".
Wenn die Länge nicht mit group_features übereinstimmt oder dieses Argument nicht angegeben ist, lauten die Namen group_1 und group_2 in dieser Reihenfolge.

Das Implementierungsimage ist wie folgt.

setup(dataset, target="Price", group_features=[["cal1", "cal2" "cal3"], ["cal4", "cal5"]], group_names=["gr1", "gr2"])

Ausführung der Merkmalsmengenauswahl

Wählen Sie die Merkmalsmenge anhand mehrerer Bewertungsindizes aus.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

feature_selection (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

feature_selection_threshold (Float-Typ, Standard = 0,8)
Gibt den prozentualen Schwellenwert an, der für die Funktionsauswahl verwendet wird. (Einschließlich neu erzeugter polymorpher Merkmale usw.)
Je höher dieser Wert, desto mehr Funktionen werden ausgewählt.

Referenz

Informationen zu feature_selection_threshold Indikatoren, die mit Schwellenwerten verglichen werden sollen, sind von Bedeutung, basierend auf mehreren Kombinationen wie Zufallsstruktur, AdaBoost und linearer Korrelation.

Ich verstehe die Details nicht, deshalb würde ich gerne in Zukunft studieren.

Laut dem ursprünglichen Quellkommentar ist es bei Verwendung von polynomial_features und feature_interaction besser, diesen Parameter mit einem niedrigen Wert zu definieren. Ist es ein Bild, dass die durch Interaktion erzeugte Feature-Menge in diesem Prozess in gewissem Maße eingegrenzt werden sollte?

Reduzierung von Merkmalen mit hoher Kardinalität

Durch die Angabe einer Spalte mit hoher Kardinalität werden die Datentypen in der Spalte reduziert und die Kardinalität verringert.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

high_cardinality_features (Zeichenfolgentyp, Standard = Keine)
Gibt die zu konvertierende Spalte (hohe Kardinalität) an.

high_cardinality_method (Zeichenfolgentyp, Standard = 'Häufigkeit')
Geben Sie die Konvertierungsmethode an.
Sie können "Frequenz" oder "Clustering" auswählen.
Wenn 'Frequenz' angegeben ist, werden die Originaldaten durch die Häufigkeit des Auftretens (numerischer Wert) für jeden Datentyp ersetzt.
Geben Sie "Clustering" an, um das Clustering durchzuführen und die Originaldaten durch das Ergebnis (Klassenbezeichnung) zu ersetzen.

Referenz

Informationen zur Kardinalität finden Sie in diesem Artikel. https://qiita.com/soyanchu/items/034be19a2e3cb87b2efb

Bei der "Clustering" -Methode wird k-means verwendet, um einen schnellen Überblick über die Quelle der ursprünglichen Familie zu erhalten.

Ich habe die Vorteile der Reduzierung der Kardinalität nicht vollständig verstanden und möchte daher in Zukunft studieren.

Feature-Skalierung

Skaliert den Feature-Betrag gemäß der angegebenen Methode.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

Transformation (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

transformationsmethode (Zeichenfolgentyp, Standard = 'yeo-johnson')
Geben Sie die Konvertierungsmethode an.
Sie können'yeo-johnson'oder'quantile 'auswählen.
'Yeo-johnson' führt die Yeo-Johnson-Konvertierung durch.
Ist "quantitativ" ein Quadrant? halten.

Referenz

Sowohl "Ja-Johnson" als auch "Quantil" scheinen die Daten so zu transformieren, dass sie einer Normalverteilung folgen.

Ich verstehe die Details nicht, deshalb würde ich gerne in Zukunft studieren.

Eine schnelle Überprüfung des Originalcodes zeigt, dass "yoe-johnson" sklearn.preprocessing.PowerTransformer und "quantile" sklearn.preprocessing.QuantileTransformer verwendet.

Im Allgemeinen kann es bei der Modellierung hilfreich sein, die Features einer Normalverteilung näher zu bringen. Gemäß dem ursprünglichen Quellenkommentar ist "Quantil" nicht linear und es sollte beachtet werden, dass es die lineare Korrelation zwischen Variablen, die auf derselben Skala gemessen werden, verzerren kann.

Objektive Variablenskalierung

Skaliert die Zielvariable nach der angegebenen Methode.

Derzeit kann dieses Element nicht im Klassifizierungspaket angegeben werden. Es werden nur Transformationen unterstützt, um einer Normalverteilung näher zu kommen, was wahrscheinlich darauf zurückzuführen ist, dass sie in der Klassifizierungsaufgabe unnötig verarbeitet werden.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

transform_target (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

transform_target_method (Zeichenfolgentyp, Standard = 'box-cox')
Geben Sie die Konvertierungsmethode an.
Sie können 'Box-Cox'oder'yeo-Johnson' auswählen.
`Box-Cox führt eine Box-Cox-Konvertierung durch.
'Yeo-johnson' führt die Yeo-Johnson-Konvertierung durch.

Referenz

Während der Modellierung kann es hilfreich sein, die Zielvariable einer Normalverteilung näher zu bringen.

Die Box-Cox-Konvertierung unterliegt der Einschränkung, dass alle Daten positive Werte sind. Wenn die Daten also negative Werte enthalten, scheint sie zwangsweise auf die Yeo-Johnson-Konvertierung umzuschalten.

Informationen zur Box-Cox-Konvertierung finden Sie in diesem Artikel. https://qiita.com/dyamaguc/items/b468ae66f9ce6ee89724

Dimensionsreduzierung der Merkmalsmenge

Wir werden die Dimension des Feature-Betrags reduzieren.

Parameter

Sie kann ausgeführt werden, indem Sie setup () mit dem folgenden Argument versehen.

pca (Bool-Typ, Standard = False)
Geben Sie an, ob dieser Prozess ausgeführt werden soll (Richtig / Falsch).

pca_method (Zeichenfolgentyp, Standard = 'linear')
'linear': Dimensionsreduktion durch Hauptkomponentenanalyse (linear).
'Kernel': Dimensionsreduktion durch Kernel-Hauptkomponentenanalyse.
'inkrementell': Die Dimensionsreduzierung erfolgt durch Hauptkomponentenanalyse (Massendaten ver).

pca_components (int / float-Typ, Standard = 0,99)
Geben Sie die Anzahl / den Prozentsatz der Features an, die nach der Dimensionsreduzierung verbleiben sollen.
Wenn als int-Typ angegeben, wird dies als die Anzahl der verbleibenden Features behandelt.
Es ist erforderlich, einen Wert anzugeben, der kleiner als die ursprüngliche Anzahl von Features ist.
Wenn als Float-Typ angegeben, wird er als Prozentsatz der verbleibenden Features behandelt.

Referenz

Im Allgemeinen wird es ausgeführt, um unwichtige Funktionen zu entfernen und Speicher- und CPU-Ressourcen zu sparen.

Dieser Prozess (Dimensionsreduzierung) scheint am Ende der Vorverarbeitungspipeline ausgeführt zu werden. (Die Dimension wird für die Daten reduziert, nachdem die andere Vorverarbeitung abgeschlossen ist.)

Dieser Artikel ist hilfreich für die Analyse der Hauptkomponenten. https://qiita.com/shuva/items/9625bc326e2998f1fa27 https://qiita.com/NoriakiOshita/items/460247bb57c22973a5f0

Für "inkrementell" scheint es eine Methode namens Inkrementelle PCA zu verwenden. Laut der Erklärung von scikit-learn ist es besser, Incremental PCA (IPCA) anstelle von Principal Component Analysis (PCA) zu verwenden, wenn der Zieldatensatz zu groß ist, um in den Speicher zu passen. IPCA verwendet eine Speichermenge, die nicht von der Anzahl der Eingabedaten abhängt, um eine niedrigdimensionale Annäherung der Eingabedaten zu erstellen. https://scikit-learn.org/stable/auto_examples/decomposition/plot_incremental_pca.html

Implementierungsbeispiel

Machen Sie eine große Anzahl von Funktionen

from pycaret.regression import *
X, y, X_train, X_test, y_train, y_test, seed, prep_pipe, target_inverse_transformer, experiment__ \
    =  setup(dataset, target="Price", session_id=123, 
             bin_numeric_features = ["Carat Weight"],
             create_clusters = True,
             polynomial_features = True,  feature_interaction = True,  feature_ratio = True)

Der Ausführungsinhalt (Auszug), der von "setup ()" ausgegeben wird, ist in der folgenden Abbildung dargestellt.

Bei der Überprüfung der zurückgegebenen vorverarbeiteten Daten wurden 72 Funktionen wie unten gezeigt generiert.

print(X.info())

#Ausgabeergebnis
# <class 'pandas.core.frame.DataFrame'>
# Int64Index: 6000 entries, 0 to 5999
# Data columns (total 72 columns):
#  #   Column                                            Non-Null Count  Dtype  
# ---  ------                                            --------------  -----  
#  0   Carat Weight_Power2                               6000 non-null   float64
#  1   Cut_Fair                                          6000 non-null   float64
#  2   Cut_Good                                          6000 non-null   float64
#  3   Cut_Ideal                                         6000 non-null   float64
#  4   Cut_Signature-Ideal                               6000 non-null   float64
#  5   Cut_Very Good                                     6000 non-null   float64
#  6   Color_D                                           6000 non-null   float64
#  7   Color_E                                           6000 non-null   float64
#  8   Color_F                                           6000 non-null   float64
#  9   Color_G                                           6000 non-null   float64
#  10  Color_H                                           6000 non-null   float64
#  11  Color_I                                           6000 non-null   float64
#  12  Clarity_FL                                        6000 non-null   float64
#  13  Clarity_IF                                        6000 non-null   float64
#  14  Clarity_SI1                                       6000 non-null   float64
#  15  Clarity_VS1                                       6000 non-null   float64
#  16  Clarity_VS2                                       6000 non-null   float64
#  17  Clarity_VVS1                                      6000 non-null   float64
#  18  Clarity_VVS2                                      6000 non-null   float64
#  19  Polish_EX                                         6000 non-null   float64
#  20  Polish_G                                          6000 non-null   float64
#  21  Polish_ID                                         6000 non-null   float64
#  22  Polish_VG                                         6000 non-null   float64
#  23  Symmetry_EX                                       6000 non-null   float64
#  24  Symmetry_G                                        6000 non-null   float64
#  25  Symmetry_ID                                       6000 non-null   float64
#  26  Symmetry_VG                                       6000 non-null   float64
#  27  Report_GIA                                        6000 non-null   float64
#  28  Carat Weight_0.0                                  6000 non-null   float64
#  29  Carat Weight_1.0                                  6000 non-null   float64
#  30  Carat Weight_10.0                                 6000 non-null   float64
#  31  Carat Weight_11.0                                 6000 non-null   float64
#  32  Carat Weight_12.0                                 6000 non-null   float64
#  33  Carat Weight_13.0                                 6000 non-null   float64
#  34  Carat Weight_2.0                                  6000 non-null   float64
#  35  Carat Weight_3.0                                  6000 non-null   float64
#  36  Carat Weight_4.0                                  6000 non-null   float64
#  37  Carat Weight_5.0                                  6000 non-null   float64
#  38  Carat Weight_6.0                                  6000 non-null   float64
#  39  Carat Weight_7.0                                  6000 non-null   float64
#  40  Carat Weight_8.0                                  6000 non-null   float64
#  41  Carat Weight_9.0                                  6000 non-null   float64
#  42  data_cluster_0                                    6000 non-null   float64
#  43  Polish_EX_multiply_Carat Weight_Power2            6000 non-null   float64
#  44  Symmetry_EX_multiply_Carat Weight_Power2          6000 non-null   float64
#  45  Report_GIA_multiply_Carat Weight_Power2           6000 non-null   float64
#  46  Clarity_VVS2_multiply_Carat Weight_Power2         6000 non-null   float64
#  47  Clarity_IF_multiply_Carat Weight_Power2           6000 non-null   float64
#  48  Clarity_SI1_multiply_Carat Weight_Power2          6000 non-null   float64
#  49  Carat Weight_Power2_multiply_data_cluster_0       6000 non-null   float64
#  50  Symmetry_EX_multiply_data_cluster_0               6000 non-null   float64
#  51  Report_GIA_multiply_data_cluster_0                6000 non-null   float64
#  52  Symmetry_VG_multiply_Carat Weight_Power2          6000 non-null   float64
#  53  Carat Weight_8.0_multiply_Carat Weight_Power2     6000 non-null   float64
#  54  Cut_Signature-Ideal_multiply_Carat Weight_Power2  6000 non-null   float64
#  55  data_cluster_0_multiply_Symmetry_EX               6000 non-null   float64
#  56  Color_E_multiply_Carat Weight_Power2              6000 non-null   float64
#  57  data_cluster_0_multiply_Cut_Ideal                 6000 non-null   float64
#  58  Carat Weight_Power2_multiply_Polish_EX            6000 non-null   float64
#  59  data_cluster_0_multiply_Report_GIA                6000 non-null   float64
#  60  Color_F_multiply_Carat Weight_Power2              6000 non-null   float64
#  61  Carat Weight_Power2_multiply_Carat Weight_8.0     6000 non-null   float64
#  62  Cut_Ideal_multiply_Carat Weight_Power2            6000 non-null   float64
#  63  Color_D_multiply_Carat Weight_Power2              6000 non-null   float64
#  64  data_cluster_0_multiply_Carat Weight_Power2       6000 non-null   float64
#  65  data_cluster_0_multiply_Polish_EX                 6000 non-null   float64
#  66  Color_I_multiply_Carat Weight_Power2              6000 non-null   float64
#  67  Polish_EX_multiply_data_cluster_0                 6000 non-null   float64
#  68  Color_H_multiply_Carat Weight_Power2              6000 non-null   float64
#  69  Carat Weight_Power2_multiply_Report_GIA           6000 non-null   float64
#  70  Clarity_VS2_multiply_Carat Weight_Power2          6000 non-null   float64
#  71  Carat Weight_Power2_multiply_Symmetry_VG          6000 non-null   float64
# dtypes: float64(72)
# memory usage: 3.3 MB

Die zurückgegebene Vorverarbeitungspipeline wird wie folgt überprüft.

print(prep_pipe)

#Ausführungsergebnis
# Pipeline(memory=None,
#          steps=[('dtypes',
#                  DataTypes_Auto_infer(categorical_features=[],
#                                       display_types=True, features_todrop=[],
#                                       ml_usecase='regression',
#                                       numerical_features=[], target='Price',
#                                       time_features=[])),
#                 ('imputer',
#                  Simple_Imputer(categorical_strategy='not_available',
#                                 numeric_strategy='mean',
#                                 target_variable=None)),
#                 ('new_levels1',
#                  New_Catagorical_Levels_i...
#                 ('dummy', Dummify(target='Price')),
#                 ('fix_perfect', Remove_100(target='Price')),
#                 ('clean_names', Clean_Colum_Names()),
#                 ('feature_select', Empty()), ('fix_multi', Empty()),
#                 ('dfs',
#                  DFS_Classic(interactions=['multiply', 'divide'],
#                              ml_usecase='regression', random_state=123,
#                              subclass='binary', target='Price',
#                              top_features_to_pick_percentage=None)),
#                 ('pca', Empty())],
#          verbose=False)

Zusammenfassung

** PyCaret kann mit einfachem Code verschiedene Datenbereinigungs- und Feature-Konvertierungsverarbeitungen durchführen ** PyCaret kann verschiedene Vorverarbeitungen nur durch Angabe der Parameter beschreiben, und ich hatte das Gefühl, dass dies zu einer erheblichen Zeitersparnis führen würde. Ich dachte auch, dass der Code sauberer und einheitlicher sein würde, was die Lesbarkeit und die Effizienz des Denkens für das Team und mich verbessern würde.

** Das Verständnis der Vorverarbeitung, die mit PyCaret durchgeführt werden kann, führt auch zum Studium verschiedener Techniken ** PyCaret ist relativ einfach herzustellen, selbst für diejenigen, die nicht gut im Codieren sind. Ich dachte, dass es ein gutes Werkzeug für Anfänger sein würde, die bisher beim Codieren gestolpert waren, sich darauf zu konzentrieren, die Theorie zu lernen, während sie sie tatsächlich bewegt. (Ich selbst habe während dieser Forschung viele Techniken gelernt, die ich vorher nicht kannte.)

** Andererseits ist PyCaret (im Moment) nur ein Werkzeug für Effizienz ** PyCaret führt nur die Bereinigung und Verarbeitung der Feature-Mengenumrechnung auf der Grundlage der vom Benutzer eingegebenen Daten durch, und mir wurde klar, dass es immer noch erforderlich ist, Hypothesen, Datenerfassung und Feature-Mengen-Design manuell durchzuführen. Es ist fertig.

[PYTHON] Ich habe die Vorbehandlung untersucht, die mit PyCaret durchgeführt werden kann

Über dieses Dokument

Implementierungsannahmen

Was ist PyCaret?

So führen Sie die Vorverarbeitung durch

Rufen Sie die Dateneingabe- / Vorverarbeitungsausführungsfunktion auf

Überprüfen Sie das Schätzergebnis des Typs jeder Variablen

Überprüfen Sie die Ausführungszusammenfassung der Vorverarbeitung

Informationen zur Sitzung

Informationen zu Eingabedaten

Numerische Merkmale und kategoriale Merkmale

Informationen zur Datenaufteilung von Zug / Test

Informationen zur Datenerfassung

(Andere) Methoden zur Datenbereinigung und Verarbeitung der Merkmalsmengenumrechnung

Datenbereinigung und Feature-Konvertierungsprozess

Die Daten nach der Vorverarbeitung werden als Rückgabewert von setup () zurückgegeben.

regression

classification

Ausschluss der Merkmalsmenge

Parameter

Referenz

Den Mangel füllen

Parameter

Referenz

Sequentielle Datencodierung

Parameter

Funktionsnormalisierung

Parameter

Referenz

Integration seltener Werte in kategoriale Variablen

Parameter

Referenz

Binning von numerischen Daten

Parameter

Referenz

Entfernung von Ausreißern

Parameter

Referenz

Merkmalsquantifizierung der Klassenringergebnisse

Parameter

Referenz

Entfernen von Features durch Datenverteilung

Parameter

Referenz

Generierung von Interaktionsfunktionen

Parameter

Referenz

Generierung von Gruppenfunktionen

Parameter

Ausführung der Merkmalsmengenauswahl

Parameter

Referenz

Reduzierung von Merkmalen mit hoher Kardinalität

Parameter

Referenz

Feature-Skalierung

Parameter

Referenz

Objektive Variablenskalierung

Parameter

Referenz

Dimensionsreduzierung der Merkmalsmenge

Parameter

Referenz

Implementierungsbeispiel

Machen Sie eine große Anzahl von Funktionen

Zusammenfassung

`regression`

`classification`