introduction

Immédiatement, j'ai essayé d'utiliser la bibliothèque d'apprentissage automatique PyCaret publiée l'autre jour. J'ai réalisé que n'importe qui peut facilement modéliser. C'était vraiment facile! Vous pouvez régler et prédire à partir du prétraitement sans écrire 10 lignes de code! Il y a de nombreuses parties que je n'ai pas encore appréhendées, comme les arguments, mais j'ai décidé d'écrire d'abord l'article PyCaret. Si vous remarquez quelque chose, veuillez commenter.

0. Environnement et version

PyCaret 1.0.0
Google Colaboratory

1. Tout d'abord depuis l'installation

Exécutez le code ci-dessous pour l'installer. C'était une sensation, mais cela n'a pris que quelques minutes. Quand je l'ai installé localement, j'ai eu une erreur, alors j'ai abandonné une fois.

! pip install pycaret

2. Acquisition de données

Cette fois, nous utiliserons les données de Boston. Vous pouvez obtenir les données avec le code suivant.

from pycaret.datasets import get_data
boston_data = get_data('boston')

3. Prétraitement

Effectuez un prétraitement. Les données et les variables cibles sont définies et initialisées dans setup (). Cette fois, nous allons résoudre le problème de régression, nous avons donc spécifié pycaret.regression. Pour les problèmes de classification, spécifiez «pycaret.classification». Vous pouvez également effectuer des tâches telles que le traitement du langage naturel et la mise en cluster.

setup () gère les valeurs manquantes, l'encodage des données catégorisées, train-test-split, etc. Pour plus d'informations, voir ici.

from pycaret.regression import *
exp1 = setup(boston_data, target = 'medv')

Exécutez-le pour terminer la configuration.

4. Comparaison de modèles

Comparons et sélectionnons des modèles. Vous pouvez comparer les modèles sur une seule ligne ci-dessous. Cela a pris quelques minutes. Il est pratique de vérifier l'index d'évaluation dans une liste! Par défaut, le pli k est divisé en 10 parties. Avec l'argument, vous pouvez spécifier le nombre de plis et l'index à trier. (L'exécution est effectuée par défaut.)

compare_models()

Cliquez ici pour les résultats d'exécution

5. Modélisation

Sélectionnez un modèle et modélisez-le. Cette fois, j'utilise Random Forest. (Je me sens complètement.) Cette fonction renvoie une table contenant des scores pliés en k et des objets de modèle entraînés. Vous pouvez également consulter la carte SD, ce qui est très pratique!

rf = create_model('rf')

En spécifiant une période après l'objet formé, vous pouvez vérifier comme suit.

6. Réglage

Le réglage peut également être effectué sur une seule ligne.

tuned_rf = tune_model('rf')

Vous pouvez obtenir les paramètres ci-dessous.

tuned_rf.get_params

7. Visualisation du modèle

Visualisons la précision du modèle. Le tracé de la régression est illustré ci-dessous, mais pour les problèmes de classification, vous pouvez choisir la sortie en fonction de la métrique. Je regrette d'avoir choisi ici le problème de classification car il existe de nombreuses variantes de visualisation du problème de classification. .. ..

plot_model(tuned_rf)

8. Interprétation du modèle

Le modèle est interprété à l'aide de SHAP. Vérifiez SHAP git pour savoir comment lire le graphique et comment interpréter le modèle.

interpret_model(tuned_rf)

9. Prévisions

La prédiction des données de test est écrite comme suit. Le résultat de l'exécution renvoie le résultat prévu pour 30% des données de test train-test-split par setup ().

rf_holdout_pred = predict_model(rf)

Lorsque vous faites des prédictions pour de nouvelles données, transmettez l'ensemble de données en tant qu'argument aux données.

Cette fois, les données originales sont réutilisées.

predictions = predict_model(rf, data=boston_data)

Le résultat de la prédiction est ajouté à l'extrême droite.

finalement

Jusqu'à la fin Merci d'avoir lu.

[PYTHON] J'ai essayé d'utiliser PyCaret à la vitesse la plus rapide