[PYTHON] Comment visualiser où se produit une mauvaise classification dans la classification de l'analyse des données

Identifier où l'erreur de classification s'est produite pour améliorer l'exactitude des résultats de l'analyse des données

C'est le thème de cette époque.

Donc, aujourd'hui, nous allons utiliser la matrice de confusion pour visualiser où l'erreur de classification s'est produite.



from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix

clf = DecisionTreeClassifier()

clf.fit(X_train, Y_train)
result = clf.predict(X_test)
cm = confusion_matrix(Y_test, result)

print(cm)


En utilisant le jeu de données iris, il sera visualisé comme indiqué dans la figure ci-dessous.

Screen Shot 2017-05-12 at 17.47.25.png Extrait de sklearn Official Document

Cela peut être un peu petit et difficile à voir, mais l'axe des y est la valeur Vraie, c'est-à-dire l'étiquetage correct, l'axe des x est la valeur prévue et il est étiqueté à l'aide d'un modèle d'apprentissage automatique. En regardant la figure ci-dessus, il y a une erreur de classification dans la rangée centrale, à droite.

En reconnaissant cela, l'examen du prétraitement des données et le réajustement des paramètres du modèle d'apprentissage automatique peuvent améliorer la précision.

Recommended Posts

Comment visualiser où se produit une mauvaise classification dans la classification de l'analyse des données
Comment utiliser is et == en Python
Comment utiliser les outils d'analyse de données pour les débutants
Comment créer des données à mettre dans CNN (Chainer)
Comment lire les données de séries chronologiques dans PyTorch
Je veux visualiser où et combien de personnes se trouvent dans l'usine
La première étape de l'analyse du journal (comment formater et mettre les données du journal dans Pandas)
Comment étudier le test d'analyse des données de certification d'ingénieur Python 3 par un débutant Python (passé en septembre 2020)
Comment utiliser xgboost: classification multi-classes avec des données d'iris
Comment appliquer des marqueurs uniquement à des données spécifiques avec matplotlib
[Pour les débutants] Comment étudier le test d'analyse de données Python3
Comment représenter la distribution de la composition bactérienne à partir des données d'analyse Qiime2 dans un diagramme de moustaches
Comment tester cette exception est déclenchée dans python unittest
Comment obtenir un aperçu de vos données dans Pandas
Compagnon de science des données en python, comment spécifier des éléments dans les pandas
Comment développer en Python
Comment gérer les trames de données
Comment donner et signifier l'option des contraintes dans scipy.optimize.minimize
Comment déterminer qu'une clé croisée a été entrée dans Python3
<Pandas> Comment gérer les données de séries chronologiques dans le tableau croisé dynamique
Comment créer une grande quantité de données de test dans MySQL? ??
[Ln] Comment coller le lien symbolique du répertoire est compliqué
Comment s'améliorer lorsque l'éditeur de Spyder est très lourd dans Mavericks
[Python] Comment FFT des données mp3
[Python] Comment faire PCA avec Python
Comment gérer une session dans SQLAlchemy
Comment lire les données de la sous-région e-Stat
Comment écrire sobrement avec des pandas
Comment utiliser SQLite en Python
Comment gérer les données déséquilibrées
Comment convertir 0,5 en 1056964608 en un seul coup
Comment refléter CSS dans Django
Comment tuer des processus en vrac
Comment utiliser Mysql avec python
Comment augmenter les données avec PyTorch
Comment envelopper C en Python
Comment utiliser ChemSpider en Python
Comment utiliser PubChem avec Python
Comment exécuter du code TensorFlow 1.0 en 2.0
Comment gérer le japonais avec Python
Comment se connecter à Docker + NGINX
Comment collecter des données d'apprentissage automatique
Comment appeler PyTorch dans Julia
Comment envoyer une image visualisée des données créées en Python à Typetalk
Comment stocker des données CSV dans Amazon Kinesis Streams avec une entrée standard
Analyse des données: application facile des statistiques descriptives et des statistiques d'estimation aux données CSV en Python
Comment tracer les données de lumière visible d'une galaxie à l'aide de la base de données OpenNGC en python