[PYTHON] Indice de classification typique

Bonjour. Cette fois, je vais être un peu enthousiasmé par la ** précision de la classification **: détendue:

Qu'est-ce qu'un index?

Un indicateur est une mesure de la précision avec laquelle une classe de données est attribuée. Ce modèle est correct! !! !! Alors s'il vous plaît, adoptez! !! Personne n'est convaincu même si on le dit.

Un exemple concret de la vie autour de nous est la ** valeur d'écart **. La valeur d'écart a un rôle de ** critères ** d'étude. Je ne pense pas que les valeurs d'écart soient toutes, mais certains critères sont nécessaires. Car sans normes, les jugements peuvent conduire à des décisions injustes. Dans le monde universitaire, il existe différentes méthodes pour les normes telles que les tableaux de notification et les CV. De plus, chaque norme a un axe différent.

C'est la même chose dans le monde de la classification. Il existe de nombreux indicateurs pour évaluer la qualité d'un modèle construit à l'aide de l'apprentissage automatique. Je voudrais en présenter quatre cette fois.

Avant de les présenter, j'aimerais expliquer l'existence de la ** matrice de confusion **.

Matrice confuse

En conclusion, une matrice de confusion est une ** matrice qui résume les résultats de la classification **. Hein? Je suis sûr que certaines personnes ont pensé cela, mais soyez assuré que je vais l'expliquer à partir de maintenant.

Exemples positifs et négatifs

Dans le monde de la classification, il y a l'idée d '«intéressé» et de «non intéressé». Aussi "Je suis intéressé" est appelé ** exemple régulier ** «Je ne suis pas intéressé» est un ** exemple négatif **.

Par exemple, si vous prévoyez que l'e-mail envoyé est du spam Je suis intéressé par les e-mails qui sont du ** spam **, alors L'exemple positif est le spam et l'exemple négatif est le courrier électronique ordinaire. Avez-vous une idée des exemples positifs et négatifs?

Dans cet esprit, regardez l'image ci-dessous. IMG_2211.jpeg

Description de la matrice de confusion

La matrice de confusion est divisée en quatre types. Vrai positif (en haut à gauche): lorsque les données réelles sont un exemple positif et que l'apprentissage automatique lui-même est également classé comme exemple positif. (Bonne réponse) Faux négatif (en haut à droite): les données réelles sont un exemple positif, mais l'apprentissage automatique est classé comme un exemple négatif. (Réponse incorrecte) Faux positif (en bas à gauche): les données réelles sont un cas négatif, mais l'apprentissage automatique est également classé comme un cas positif. (Réponse incorrecte) Vrai négatif (en bas à droite): lorsque les données réelles sont un exemple négatif et que l'apprentissage automatique lui-même est également classé comme exemple négatif. (Bonne réponse)

Mathématiquement, il ne peut y avoir que ces quatre types. Parce que, selon le nombre de cas, 2 (les données réelles sont de 2 types (exemple positif OU exemple négatif)) * 2 (la prédiction est également de 2 types) = ** 4 **

L'explication de la matrice de confusion est ici. Sur la base de ce chiffre, je voudrais examiner les quatre indicateurs.

Taux de conformité

Taux de conformité: ** Indique quel pourcentage du modèle d'apprentissage automatique a prédit être un exemple correct ** (s'il s'agissait d'un exemple correct). Si vous écrivez dans la formule en utilisant les symboles de la figure ci-dessus,

Taux de conformité= \frac{tp}{tp + fp}

Peut être écrit. En d'autres termes, un taux de précision élevé signifie que la proportion de données prédites comme un exemple positif et qui était en fait un exemple positif est élevée.

Rappel

Taux de rappel: ** Indique le rapport des données d'exemple positives réelles qui devraient être correctes **. Cela a une relation qui est très similaire au taux de précision. J'expliquerai cela plus tard. Si vous écrivez d'abord le taux de rappel dans une formule mathématique,

Rappel= \frac{tp}{tp + fn}

En d'autres termes, un taux de rappel élevé signifie que le rapport des données dont on peut prédire le positif est élevé par rapport aux données positives.

Relation entre précision et rappel

Ces deux mesures sont dans une relation de ** compromis **. En d'autres termes, si vous essayez d'augmenter le taux de rappel, le taux de précision diminuera, et vice versa.

Si vous avez du mal à imaginer, veuillez lire l'exemple ci-dessous. C'était très facile à comprendre. Relation entre reproduction et taux de précision

Valeur F

Valeur F: Moyenne harmonisée de précision et de rappel C'est,

Valeur F= \frac{2}{\frac{1}{Taux de conformité} + \frac{1}{Rappel}} = \frac{2 \times Taux de conformité \times Rappel}{Taux de conformité + Rappel}

La valeur F est un indice qui est mis en valeur lorsque l'on vise un bon équilibre ** pour les deux indices en prenant une moyenne harmonisée du taux de précision et du taux de rappel.

Taux de réponse correct

Taux de réponse correcte: indique le pourcentage de données dans lequel la prévision et le résultat réel correspondent, que le cas soit positif ou négatif. C'est,

Taux de réponse correct= \frac{tp + tn}{tp + fp + fn + tn}

Un index qui détermine dans quelle mesure la réponse correspond au résultat global de la prédiction.

Résumé

Comment était-ce? Il existe différentes perspectives pour déterminer si un modèle d'apprentissage automatique est bon ou mauvais. Il semble que vous ayez besoin de savoir quel type de modèle vous souhaitez tout au long de la tâche. Cette fois j'ai résumé --Taux de conformité

Les références

Fonction d'évaluation de l'apprentissage automatique que je n'entends plus Comprendre la matrice de confusion

Recommended Posts

Indice de classification typique
[PyTorch] Classification des images du CIFAR-10
Apprendre avec l'enseignant 1 Principes de base de l'apprentissage avec l'enseignant (classification)
Pratiquer des méthodes typiques de statistiques (1)
Classification multi-étiquette d'images multi-classes avec pytorch
Algorithme d'apprentissage automatique (implémentation de la classification multi-classes)
[Classification des images] Analyse faciale du chien