[PYTHON] Ich habe PyCaret2.0 (pycaret-nightly) ausprobiert.
Einführung
Wie man es versucht
pip install pycaret-nightly
- pip, um Version 2.0.0 zu testen.
Versuchen
Vorverarbeitung für unausgeglichene Daten
- v2 fügt eine Vorverarbeitung für unausgeglichene (nur wenige positive und negative) Daten in der binären Klassifizierung hinzu.
- Die Spezifikationsmethode ist einfach. Geben Sie beim Einrichten ** fix_imbalance = True ** im Argument an.
from pycaret.classification import *
exp1 = setup(
data,
target = 'default',
fix_imbalance=True #Fügen Sie diese Zeile hinzu
)
- Diese Spezifikation verarbeitet die unausgeglichenen Daten vor.
Vorbehandlung durchgeführt (SMOTE)
Andere Vorbehandlung
- Wie im Eröffnungsartikel erwähnt, scheint es auch ** ADASYN ** und ** Random Over Sampler ** zu unterstützen.
- Intern in v2 (Nightly Build-Version), in Dependent Library, unausgeglichen- learn wurde hinzugefügt.
- Die Dokumentzeichenfolge enthält außerdem die folgende Beschreibung.
fix_imbalance_method: obj, default = None
When fix_imbalance is set to True and fix_imbalance_method is None, 'smote' is applied
by default to oversample minority class during cross validation. This parameter
accepts any module from 'imblearn' that supports 'fit_resample' method.
So legen Sie eine andere Vorverarbeitung fest
- Ich möchte die imblearn-Klasse gemäß den Anweisungen in der obigen Dokumentzeichenfolge angeben.
- Importieren und spezifizieren Sie den aus imblearn.over_sampling angegebenen Algorithmus over_sampling.
from pycaret.classification import *
from imblearn.over_sampling import ADASYN, BorderlineSMOTE, KMeansSMOTE, RandomOverSampler, SMOTE, SMOTENC, SVMSMOTE
exp1 = setup(
data,
target = 'default',
fix_imbalance=True,
fix_imbalance_method=ADASYN() #In dieser Zeile angegeben
)
Spezifizierter Algorithmus
Einfallsreichtum bei der Bewertung eines Modells
- MCC (Matthews Correlation Coefficient) wurde zusammen mit der Implementierung der Vorverarbeitung für unausgeglichene Daten zur Genauigkeitsliste hinzugefügt.
- Wenn eine Minderheitsklasse als positives Beispiel verwendet wird, ist das F-Maß in Ordnung, aber selbst in Situationen, in denen eine solche Berücksichtigung nicht berücksichtigt wird, kann MCC die Lerngenauigkeit für unausgeglichene Daten korrekt bewerten, was gut ist.
- Für die Beziehung zwischen F-Measure und MCC zum Zeitpunkt unausgeglichener Daten ist dieser Blog hilfreich. Verknüpfen Sie ihn daher. Ich werde das machen.
Schließlich
- Dieses Mal haben wir die Korrespondenz zu v2-Ungleichgewichtsdaten eingeführt.
- Darüber hinaus scheint die Unterstützung von mlflow geplant zu sein, und ich freue mich auf die offizielle Veröffentlichung von v2.
- Dies ist ein grober Artikel, aber danke, dass Sie bis zum Ende bei uns bleiben.