Ich habe sofort versucht, die neulich veröffentlichte Bibliothek für maschinelles Lernen PyCaret zu verwenden. Mir wurde klar, dass jeder leicht modellieren kann. Es war wirklich einfach! Sie können die Vorverarbeitung optimieren und vorhersagen, ohne 10 Codezeilen schreiben zu müssen! Es gibt viele Teile, die ich noch nicht verstanden habe, wie zum Beispiel Argumente, aber ich habe beschlossen, zuerst den PyCaret-Artikel zu schreiben. Wenn Sie etwas bemerken, kommentieren Sie bitte.
Führen Sie den folgenden Code aus, um ihn zu installieren. Es war eine Sensation, aber es dauerte nur ein paar Minuten. Als ich es lokal installiert habe, habe ich eine Fehlermeldung erhalten und habe einmal aufgegeben.
! pip install pycaret
Dieses Mal werden wir die Daten von Boston verwenden. Sie können die Daten mit dem folgenden Code erhalten.
from pycaret.datasets import get_data
boston_data = get_data('boston')
Vorverarbeitung durchführen. Daten und Zielvariablen werden in setup () definiert und initialisiert. Dieses Mal werden wir das Regressionsproblem lösen, also haben wir "pycaret.regression" angegeben. Geben Sie bei Klassifizierungsproblemen "pycaret.classification" an. Sie können auch Aufgaben wie die Verarbeitung natürlicher Sprache und das Clustering ausführen.
setup () behandelt fehlende Werte, kategorisierte Datencodierung, Zugtest-Aufteilung usw. Weitere Informationen finden Sie unter hier.
from pycaret.regression import *
exp1 = setup(boston_data, target = 'medv')
Führen Sie es aus, um das Setup abzuschließen.
Vergleichen und wählen wir Modelle aus. Sie können Modelle in einer Zeile unten vergleichen. Es dauerte ein paar Minuten. Es ist bequem, den Bewertungsindex in einer Liste zu überprüfen! Standardmäßig ist k-fold in 10 Teile unterteilt. Mit dem Argument können Sie die Anzahl der Falten und den zu sortierenden Index angeben. (Das Ausführen erfolgt standardmäßig.)
compare_models()
Klicken Sie hier für Ausführungsergebnisse
Wählen Sie ein Modell aus und modellieren Sie es. Diesmal benutze ich Random Forest. (Ich fühle mich vollkommen.) Diese Funktion gibt eine Tabelle zurück, die k-fache Scores und trainierte Modellobjekte enthält. Sie können auch die SD überprüfen, was sehr praktisch ist!
rf = create_model('rf')
Indem Sie einen Zeitraum nach dem trainierten Objekt angeben, können Sie Folgendes überprüfen.
Die Abstimmung kann auch in einer Zeile erfolgen.
tuned_rf = tune_model('rf')
Sie können die folgenden Parameter erhalten.
tuned_rf.get_params
Lassen Sie uns die Genauigkeit des Modells visualisieren. Das Diagramm der Regression ist unten dargestellt. Bei Klassifizierungsproblemen können Sie die Ausgabe entsprechend der Metrik auswählen. Ich bedauere, dass ich das Klassifizierungsproblem hier hätte auswählen sollen, da es viele Variationen der Visualisierung des Klassifizierungsproblems gibt. .. ..
plot_model(tuned_rf)
Das Modell wird mit SHAP interpretiert. Überprüfen Sie SHAP git, wie Sie das Diagramm lesen und das Modell interpretieren können.
interpret_model(tuned_rf)
Die Vorhersage für die Testdaten wird wie folgt geschrieben. Das Ausführungsergebnis gibt das vorhergesagte Ergebnis für 30% der Testdaten zurück.
rf_holdout_pred = predict_model(rf)
Wenn Sie Vorhersagen für neue Daten treffen, übergeben Sie das Dataset als Argument an die Daten.
predictions = predict_model(rf, data=boston_data)
Das Vorhersageergebnis wird ganz rechts hinzugefügt.
Bis zum Ende Danke fürs Lesen. Wenn Sie Fragen haben, hinterlassen Sie bitte einen Kommentar.
Recommended Posts