[PYTHON] Raisons pour lesquelles l'évaluation de la matrice de confusion telle que la précision ne peut pas être utilisée

Cela fait un moment depuis mon dernier message, mais je continuerai de le mettre à jour de temps en temps. C'est un indice tel que la précision qui est souvent utilisé pour évaluer la précision de l'apprentissage automatique, mais il est rarement utilisé dans le domaine financier. Avant d'expliquer pourquoi il n'est pas utilisé, parlons des matrices de confusion et des métriques telles que la précision. Si vous n'avez pas besoin d'explication, veuillez consulter uniquement les problèmes et les conclusions.

Matrice de confusion

Une matrice de confusion est une matrice de prédictions et aboutit à la classification binaire de l'apprentissage automatique. Dans la classification binaire de l'apprentissage automatique, la probabilité de prédiction et la classification de prédiction basée sur celle-ci peuvent être sorties en sortie. Par exemple, dans la cote de crédit, la probabilité d'être en retard et s'il sera en retard ou non sont indiqués comme 0 et 1. Sur cette base, la correspondance entre la prédiction et le résultat est exprimée dans une matrice comme suit.

- Prévoir(Pas en retard) - Positive Prévoir(Être en retard) - Negative
résultat(Pas en retard) - Positive TP(True Positive) FN(False Negative)
résultat(En retard) - Negative FP(False Positive) TN(True Negative)

Si le résultat d'apprentissage prédit qu'il ne sera pas en retard, si le résultat n'est pas en retard, il correspond à TP, s'il est prédit qu'il ne sera pas en retard, il correspond à FN si le résultat est en retard. Si la prédiction est correcte, c'est TP ou TN.

Index d'évaluation

Il existe les types d'indices d'évaluation suivants utilisant la matrice de confusion ci-dessus, et chacun a ses propres caractéristiques. On dit que plus la valeur est élevée, meilleures sont les performances.

  1. Précision (taux de précision, précision) Il est populaire et montre dans quelle mesure les prévisions et les résultats étaient corrects.

    Accuracy = \frac{TP + TN}{TP + FP + FN + TN}

  2. Précision Pourcentage de résultats positifs prévus (non en retard).

    Precision = \frac{TP}{TP + FP}

  3. Rappel Pourcentage de la mesure dans laquelle le résultat pourrait être prédit.

    Recaall = \frac{TP}{TP + FN}

  4. Spécificité Pourcentage de la mesure dans laquelle les résultats pourraient être prédits négatifs.

    Specificity = \frac{TN}{FP + TN}

Problèmes et caractéristiques des indicateurs d'évaluation

Par exemple, si le résultat de la prédiction est le suivant,

- Prévoir(Pas en retard) - Positive Prévoir(Être en retard) - Negative
résultat(Pas en retard) - Positive 980(TP) 0(FN)
résultat(En retard) - Negative 20(FP) 0(TN)
Accuracy = \frac{TP + TN}{TP+ FP + FN + TN} = \frac{980}{1000} = 0.98

Par conséquent, la valeur de précision sera élevée. Cependant, en regardant la ventilation, toutes les prédictions sont positives et je n'ai pu prédire aucun des résultats négatifs. Selon le biais des données, la précision sera élevée même si toutes sont prédites aléatoirement comme positives. Donc, quand je calcule la spécificité

Specificity = \frac{TN}{FP + TN} = \frac{0}{20} = 0

Vous pouvez voir qu'il n'y a aucune prédiction selon laquelle ce sera négatif.

Autres indicateurs

Il existe plusieurs types d'indicateurs d'évaluation, et chacun a ses propres caractéristiques, ce qui tend à compliquer l'évaluation. Par conséquent, un indice appelé valeur F (score F, score F1, mesure F, échelle F) peut être utilisé. Il s'agit de la moyenne harmonisée de Précision et Rappel.

F1 = 2\frac{Precision * Recall}{Precision + Recall}

problème

J'ai mentionné diverses métriques qui utilisent des matrices de confusion, mais je ne les utiliserai pas. La racine de la matrice de confusion est classée en deux termes, positif et négatif, et l'exactitude de la classification est mesurée. La méthode de classification est positive si elle est inférieure au seuil déterminé en fonction de la probabilité prédite et négative si elle est supérieure. Le premier problème est lorsque les données sont biaisées. Si les données d'origine ont un positif de 99% et un négatif de 1%, les valeurs métriques ont tendance à être biaisées. La seconde consiste à fixer le seuil. Bien sûr, le rapport des changements positifs et négatifs en fonction de l'endroit où le seuil est fixé, mais il a tendance à être ambigu si le seuil est approprié. Par exemple, si cela est utilisé dans le score de crédit, etc., la société A ne conclut pas de contrat pour la prédiction en retard de 5% ou plus, donc la société B utilise 5% comme seuil et 10% comme seuil, et il est classé comme négatif. Disons que vous ne signez pas de contrat. Ensuite, il n'est pas vrai que toutes les personnes classées positives seront en retard, et il y aura toujours des cas où elles seront en retard. En effet, dans certains cas, même si toutes les informations fournies (par exemple, les attributs et l'historique des transactions) sont identiques, elles ne seront pas en retard. L'élément le plus important dans la cote de crédit est la conception du produit en fonction du degré de risque, donc ce qui est important est le pourcentage de probabilité (degré de risque), et non l'exactitude d'être classé comme positif ou négatif. est.

Conclusion

Bien entendu, l'indice d'évaluation ci-dessus peut être important lorsqu'il est important de le classer en deux termes avec une grande précision sans tenir compte du degré de risque. En conclusion, si vous ne choisissez pas l'indice à utiliser en fonction de la façon dont il est utilisé, la précision du modèle d'apprentissage sera mesurée en fonction de l'indice dénué de sens, et la précision sera évaluée comme bonne ou mauvaise. Apprenez à évaluer le modèle et expliquez pourquoi vous l'avez prédit. Un résumé de la façon d'évaluer et d'expliquer les modèles appris par machine pour créer un POC compris.

Recommended Posts

Raisons pour lesquelles l'évaluation de la matrice de confusion telle que la précision ne peut pas être utilisée
Pourquoi utiliser Pandas Apply ()