[PYTHON] Ich habe versucht, PyCaret mit der schnellsten Geschwindigkeit zu verwenden

Einführung

Ich habe sofort versucht, die neulich veröffentlichte Bibliothek für maschinelles Lernen PyCaret zu verwenden. Mir wurde klar, dass jeder leicht modellieren kann. Es war wirklich einfach! Sie können die Vorverarbeitung optimieren und vorhersagen, ohne 10 Codezeilen schreiben zu müssen! Es gibt viele Teile, die ich noch nicht verstanden habe, wie zum Beispiel Argumente, aber ich habe beschlossen, zuerst den PyCaret-Artikel zu schreiben. Wenn Sie etwas bemerken, kommentieren Sie bitte.

0. Umgebung und Version

1. Zuerst von der Installation

Führen Sie den folgenden Code aus, um ihn zu installieren. Es war eine Sensation, aber es dauerte nur ein paar Minuten. Als ich es lokal installiert habe, habe ich eine Fehlermeldung erhalten und habe einmal aufgegeben.

! pip install pycaret

2. Datenerfassung

Dieses Mal werden wir die Daten von Boston verwenden. Sie können die Daten mit dem folgenden Code erhalten.

from pycaret.datasets import get_data
boston_data = get_data('boston')

3. Vorbehandlung

Vorverarbeitung durchführen. Daten und Zielvariablen werden in setup () definiert und initialisiert. Dieses Mal werden wir das Regressionsproblem lösen, also haben wir "pycaret.regression" angegeben. Geben Sie bei Klassifizierungsproblemen "pycaret.classification" an. Sie können auch Aufgaben wie die Verarbeitung natürlicher Sprache und das Clustering ausführen.

setup () behandelt fehlende Werte, kategorisierte Datencodierung, Zugtest-Aufteilung usw. Weitere Informationen finden Sie unter hier.

from pycaret.regression import *
exp1 = setup(boston_data, target = 'medv')

Führen Sie es aus, um das Setup abzuschließen. image.png image.png

4. Modellvergleich

Vergleichen und wählen wir Modelle aus. Sie können Modelle in einer Zeile unten vergleichen. Es dauerte ein paar Minuten. Es ist bequem, den Bewertungsindex in einer Liste zu überprüfen! Standardmäßig ist k-fold in 10 Teile unterteilt. Mit dem Argument können Sie die Anzahl der Falten und den zu sortierenden Index angeben. (Das Ausführen erfolgt standardmäßig.)

compare_models()

Klicken Sie hier für Ausführungsergebnisse image.png

5. Modellierung

Wählen Sie ein Modell aus und modellieren Sie es. Diesmal benutze ich Random Forest. (Ich fühle mich vollkommen.) Diese Funktion gibt eine Tabelle zurück, die k-fache Scores und trainierte Modellobjekte enthält. Sie können auch die SD überprüfen, was sehr praktisch ist!

rf = create_model('rf')

image.png

Indem Sie einen Zeitraum nach dem trainierten Objekt angeben, können Sie Folgendes überprüfen. image.png

6. Abstimmung

Die Abstimmung kann auch in einer Zeile erfolgen.

tuned_rf = tune_model('rf')

image.png

Sie können die folgenden Parameter erhalten.

tuned_rf.get_params

image.png

7. Modellvisualisierung

Lassen Sie uns die Genauigkeit des Modells visualisieren. Das Diagramm der Regression ist unten dargestellt. Bei Klassifizierungsproblemen können Sie die Ausgabe entsprechend der Metrik auswählen. Ich bedauere, dass ich das Klassifizierungsproblem hier hätte auswählen sollen, da es viele Variationen der Visualisierung des Klassifizierungsproblems gibt. .. ..

plot_model(tuned_rf)

image.png

8. Modellinterpretation

Das Modell wird mit SHAP interpretiert. Überprüfen Sie SHAP git, wie Sie das Diagramm lesen und das Modell interpretieren können.

interpret_model(tuned_rf)

image.png

9. Prognose

Die Vorhersage für die Testdaten wird wie folgt geschrieben. Das Ausführungsergebnis gibt das vorhergesagte Ergebnis für 30% der Testdaten zurück.

rf_holdout_pred = predict_model(rf)

image.png

Wenn Sie Vorhersagen für neue Daten treffen, übergeben Sie das Dataset als Argument an die Daten.

predictions = predict_model(rf, data=boston_data)

Das Vorhersageergebnis wird ganz rechts hinzugefügt. image.png

Schließlich

Bis zum Ende Danke fürs Lesen. Wenn Sie Fragen haben, hinterlassen Sie bitte einen Kommentar.

Referenzseite

Recommended Posts

Ich habe versucht, PyCaret mit der schnellsten Geschwindigkeit zu verwenden
Ich habe versucht, PyCaret zu verwenden
Ich habe versucht, die checkio-API zu verwenden
Ich habe versucht, die BigQuery-Speicher-API zu verwenden
Ich habe mir die Metainformationen von BigQuery angesehen und versucht, sie zu verwenden
Ich habe versucht, parametrisiert zu verwenden
Ich habe versucht, Mimesis zu verwenden
Ich habe versucht, anytree zu verwenden
vprof - Ich habe versucht, den Profiler für Python zu verwenden
Ich habe versucht, aiomysql zu verwenden
Ich habe versucht, Summpy zu verwenden
Ich habe versucht, Coturn zu verwenden
Ich habe versucht, Pipenv zu verwenden
Ich habe versucht, die Google Cloud Vision-API zu verwenden
Ich habe versucht, Matplotlib zu verwenden
Ich habe versucht, "Anvil" zu verwenden.
Ich habe versucht, Hubot zu verwenden
Ich habe versucht, ESPCN zu verwenden
Ich habe PyCaret2.0 (pycaret-nightly) ausprobiert.
Ich habe versucht, openpyxl zu verwenden
Ich habe versucht, Ipython zu verwenden
[Mac] Erstellen Sie mit Docker eine Python 3.x-Umgebung mit der schnellsten Geschwindigkeit
Ich habe versucht, Cron zu verwenden
Ich habe versucht, das Datetime-Modul von Python zu verwenden
Ich habe versucht, ngrok zu verwenden
Ich habe versucht, face_recognition zu verwenden
Ich habe versucht, Jupyter zu verwenden
Ich habe versucht, doctest zu verwenden
Ich habe versucht, den Bildfilter von OpenCV zu verwenden
Ich habe versucht, Folium zu verwenden
Ich habe versucht, jinja2 zu verwenden
Ich habe versucht, die funktionale Programmierbibliothek toolz zu verwenden
Ich habe versucht, Folium zu verwenden
Ich habe versucht, das Zeitfenster zu verwenden
[Linux] Ich habe versucht, die genetische Statistiksoftware PLINK zu verwenden
Ich habe versucht, EKG-Daten mit der K-Shape-Methode zu gruppieren
Ich habe versucht, die Sündenfunktion mit Chainer zu approximieren
Ich habe versucht, die API von Sakenowa Data Project zu verwenden
Ich habe versucht, die Sprache mit CNN + Melspectogram zu identifizieren
Ich habe versucht, das Wissensdiagramm mit OpenKE zu ergänzen
Ich habe versucht, das Bild mithilfe von maschinellem Lernen zu komprimieren
Ich habe versucht, easydict (Memo) zu verwenden.
Ich habe versucht, das Gesicht mit Face ++ zu erkennen
Ich habe versucht, RandomForest zu verwenden
Ich habe versucht, BigQuery ML zu verwenden
Ich habe versucht, Amazon Glacier zu verwenden
Ich habe die Changefinder-Bibliothek ausprobiert!
Ich habe versucht, Git Inspector zu verwenden
Ich habe versucht, Magenta / TensorFlow zu verwenden
Ich habe versucht, AWS Chalice zu verwenden
Ich habe versucht, Slack Emojinator zu verwenden
Ich habe versucht, die Python-Bibliothek von Ruby mit PyCall zu verwenden
Ich habe versucht, das CNN-Modell von TensorFlow mit TF-Slim umzugestalten
Ich habe versucht, die Anzeigenoptimierung mithilfe des Banditenalgorithmus zu simulieren
Ich habe versucht, das Lachproblem mit Keras zu erkennen.