[PYTHON] Comprenez-vous correctement l'intervalle de confiance? Quelle est la différence avec la section sur les condamnations?

** L'intervalle de confiance ** est un concept qui apparaît très tôt dans les statistiques d'apprentissage, mais il est souvent mal compris à cause de son nom. L'interprétation intuitive est plus appropriée pour l '** intervalle crédible ** en utilisant les statistiques bayésiennes, mais de nombreuses personnes peuvent ne pas comprendre la différence, ou même connaître l'intervalle de condamnation en premier lieu. ..

Dans cet article, nous clarifions une fois de plus les positions de ** Fréquentiste ** et ** Bayésien **, qui divisent les statistiques en deux, comprennent la différence entre les intervalles de confiance et de confiance, et les données statistiques. Je voudrais l'utiliser pour l'analyse scientifique.

Concept d'intervalle de confiance

Il existe différentes manières d'exprimer la variation des données, telles que la variance et l'écart type, et ** l'intervalle de confiance ** en fait partie.

L'intervalle de confiance pour le paramètre intéressant $ \ theta $, calculé à partir de $ n $ data $ X $, est calculé en utilisant l'écart type $ \ sigma $ de la population à laquelle appartient le paramètre, comme suit:


(\theta - z\frac{\sigma}{\sqrt{n}},\hspace{5pt} \theta + z\frac{\sigma}{\sqrt{n}})

À ce stade, $ z $ représente le niveau de confiance, et s'il est de 95% des deux côtés, $ z = 1,96 $, qui est la plage qui comprend 95% des données de la distribution normale standard, est utilisé. Dans de nombreux cas, l'écart type de la population n'est pas connu, donc ** "Si vous ne connaissez pas la variation de la population de distribution normale, l'écart-type de l'échantillon $ s au lieu de l'écart-type de la population $ \ sigma $ Nous utilisons $ et utilisons la technique statistique de "supposer que la distribution des paramètres suit la distribution t" **. À ce stade, la formule de calcul de l'intervalle de confiance est réécrite comme suit.


(\theta - t\frac{s}{\sqrt{n}},\hspace{5pt} \theta + t\frac{s}{\sqrt{n}})

A ce moment, $ t $ est la valeur t avec le degré de liberté $ n-1 $ et $ \ alpha = (1-C) / 2 $. Par exemple, si vous voulez trouver un intervalle de confiance à 95% pour $ C $, $ C = 0,95 $, donc $ \ alpha = 0,025 $.

Cet intervalle de confiance, l'idée du Fréquentiste, est souvent confondu avec l'interprétation bayésienne suivante à cause du nom.

"Intervalle de confiance? Par exemple, s'il s'agit d'un intervalle de confiance à 95%, 95% des données obtenues se situent dans cette plage, n'est-ce pas?"

"Intervalle de confiance? Par exemple, s'il s'agit d'un intervalle de confiance à 95%, il montre la plage de 95% de la plage de variation des paramètres d'intérêt calculée à partir des données obtenues, n'est-ce pas?"

"Intervalle de confiance? Par exemple, s'il s'agit d'un intervalle de confiance de 95%, lorsque l'expérience est répétée plusieurs fois, il y a 95% de chances que le paramètre d'intérêt tombe dans cette plage, n'est-ce pas?"

…… Malheureusement, tout est différent.

** Un intervalle de confiance de 95% signifie que lorsque de nombreuses expériences sont répétées, par exemple 100 fois, la fréquence des expériences dans lesquelles les paramètres intéressants calculés à partir des données obtenues dans chaque expérience se situent dans l'intervalle de confiance est de 95. Cela signifie que c'est **.

Il est facile de penser intuitivement à partir du nom de la section de confiance, mais en réalité, c'est un concept assez difficile à interpréter. Je pense qu'il n'y a pas beaucoup de gens qui peuvent lire la définition ci-dessus et comprendre immédiatement "Oh, je vois!".

La raison en est que les théoriciens des fréquences pensent comme suit.

"Il y a une vraie valeur pour le paramètre d'intérêt" "La vraie valeur de ce paramètre vient de la population." "Mais ce que vous obtenez dans l'expérience n'est qu'une partie de la population." "Par conséquent, les paramètres calculés dans chaque expérience peuvent s'inscrire ou non dans un certain intervalle de confiance."

En d'autres termes, la philosophie de l'intervalle de confiance est que ** la valeur du paramètre est à l'origine un, mais quantifions en quelque sorte la plage de variation créée en répétant l'expérience **. C'est un concept qui passe par de nombreuses hypothèses et qui est difficile à interpréter.

Intervalle de crédibilité bayésien

Vous voulez calculer plus intuitivement la plage de paramètres qui vous intéresse et dire: "Il y a 95% de chances que ce paramètre soit dans cette plage!" C'est là qu'entre en jeu l'idée de ** l'intervalle de crédibilité bayésien **.

La clé est la philosophie bayésienne. Contrairement aux théoriciens des fréquences, Basian ne pense pas que «les paramètres ont de vraies valeurs». À la place, pensez à "** le paramètre $ \ theta $ prend différentes valeurs, et quelle valeur dépend de la distribution de probabilité $ P (\ theta) $ **". Une fois que le paramètre de modèle $ \ theta $, qui donne les données $ y $, est déterminé, le théorème bayésien suivant est valable.


P(\theta|y) = \frac{P(y|\theta)P(\theta)}{\Sigma_{y}P(y|\theta)P(\theta)}

A ce moment, $ P (\ theta) $ est appelé ** distribution a priori ** et représente la distribution de probabilité pour la valeur de $ \ theta $ avant d'observer les données.

$ P (y | \ theta) $ est appelé ** Probabilité ** et représente la distribution de probabilité des données $ y $ lorsque le paramètre de modèle $ \ theta $ est déterminé.

Enfin, $ P (\ theta | y) $ est appelé ** distribution postérieure ** et représente la distribution de probabilité du paramètre de modèle $ \ theta $ après observation des données $ y $. ..

La bonne chose à propos de cette statistique bayésienne est que la plage possible de la valeur $ \ theta $ d'intérêt est exprimée (en tant que probabilité post-expérimentale ou distribution de probabilité post-expérimentale), donc par exemple, 95% ** $ \ theta C'est un ** point qui peut être calculé directement à partir de la distribution de probabilité postérieure $ P (\ theta | y) $ dans l'intervalle contenant $.

Par conséquent, selon la philosophie bayésienne, le calcul de l'intervalle de conviction bayésien conduit à la conclusion intuitive que «la probabilité qu'un paramètre intéressant se trouve dans cette plage est $ p $!».

(Exemple) Intervalle de confiance vs intervalle de confiance de Bayes

Résolvons un exemple simple pour renforcer votre compréhension.

A a eu un problème. Je crains d'être faible à Janken. Par conséquent, M. A a décidé d'enregistrer le résultat à chaque fois qu'il jouait un morceau. Quand je suis devenu ami, j'ai joué avec cet adversaire jusqu'à ce que je gagne ou que je perde. Sur les 100 fois où il a joué, A a gagné 42 fois. En ce moment, pouvez-vous dire que M. A est faible à Janken? *

Répondons aux problèmes de M. A du point de vue du fréquentiste et du bayésien.

"Réponse du fréquenciste"

Le taux de réussite de M. A $ \ theta $ est de 42/100 selon le dossier, mais c'est un résultat obtenu dans un essai limité de 100 fois, et c'est un résultat que seule une partie de la population est vue, * * Le taux gagnant $ \ theta $ de A a une valeur unique et vraie. ** Quelle est la vraie valeur? Je ne sais pas ça. Cependant, je sais si M. A est vulnérable à Janken. Il ne vous reste plus qu'à calculer l '** intervalle de confiance **!

Cette population est basée sur plusieurs essais indépendants, avec deux résultats: une probabilité de gain de $ \ theta $ et une probabilité de perte de 1 $ \ theta $, résultant en une ** distribution binomiale **. À ce stade, la moyenne de la distribution du nombre de victoires obtenue à partir des résultats de 100 fois de la pierre-papier-ciseaux provient du ** théorème de la limite centrale **, la moyenne est de 100 $ \ theta $ et la variance est de 100 $ \ theta (1- \ theta) Vous pouvez suivre la distribution normale de $! Puisque la distribution est connue, l'intervalle de confiance à 95% peut être calculé comme suit en utilisant $ z = 1,96 $.


(100\theta - 1.96\sqrt{100\theta(1-\theta)}, \hspace{5pt} 100\theta + 1.96\sqrt{100\theta(1-\theta)})

En remplaçant le taux de victoire observé $ \ theta = 42/100 $, l'intervalle de confiance peut être calculé comme $ (32,3, 51,7) $. En d'autres termes, si vous répétez beaucoup d'expériences pour trouver le taux de gain en jouant 100 fois, 95% d'entre elles seront de 32,3 $ \ leq et le nombre de victoires \ leq de 51,7 $! Cette gamme comprend 50 victoires qui ne sont ni fortes ni faibles, donc je suis sûr à 95% que A n'est pas faible!

"La réponse de Basian"

Puisque ce Janken est le résultat d'une victoire ou d'une défaite lors de plusieurs essais indépendants, la distribution de probabilité qui donne les données $ y $ sera la ** distribution binomiale **. Le paramètre de modèle de cette distribution de probabilité, dans ce cas, si le taux de victoire est $ \ theta $, le nombre d'essais est $ N $ et le nombre de victoires est $ y $, et cette distribution de probabilité peut s'écrire comme suit.


P(y|\theta) = \binom{N}{y}\theta^{y}(1-\theta)^{N-y}

Si le paramètre du modèle $ \ theta $ est fixe, l'équation ci-dessus peut être traitée comme une fonction de vraisemblance dans le théorème de Bayes. Bien sûr, $ \ theta $ sera calculé en le multipliant par la formule de pré-probabilité $ P (\ theta) $.

Maintenant, la probabilité a priori des paramètres du modèleP(\theta)C'est une distribution de probabilité deDistribution bêtaEssayons. Cette fois, la fonction de vraisemblanceP(y|\theta)Est une distribution binomiale, donc la distribution de probabilité antérieureP(\theta) がDistribution bêtaなら、求めたい事後確率分布P(\theta|y) もDistribution bêtaになるから、計算が楽になる。このように、事前確率分布と事後確率分布が同様の確率分布になるような事前確率分布を**Distribution de probabilité antérieure conjuguée(Conjugate prior)**Je l'appelle, mais ce n'est pas grave.

La distribution bêta a deux hyperparamètres pour la distribution de probabilité antérieure: $ \ alpha et \ beta $.


\theta \sim Beta(\alpha, \beta)

Décidons $ \ alpha, \ beta $ en utilisant le fait que la moyenne de la distribution beta est $ \ frac {\ alpha} {\ alpha + \ beta} $ et la taille de l'échantillon est $ \ alpha + \ beta $.

Il y a deux façons de gagner ou de perdre cette fois, donc je veux que la moyenne de la distribution de probabilité antérieure $ P (\ theta) $ soit de 0,5 $. La taille de l'échantillon est de 100 $, donc $ \ alpha = \ beta = 50 $ est très bien.

À ce stade, la fonction de vraisemblanceP(y|\theta)Est une distribution binomiale, donc en raison de la nature de la distribution de probabilité antérieure conjuguée, la distribution de probabilité postérieureP(\theta|y)Peut être écrit comme suit.


\theta|y \sim Beta(\alpha + y, \beta + N - y)

En remplaçant la valeur du paramètre, la distribution de pré-probabilité est $ Beta (50,50) $ et la distribution de post-probabilité est $ Beta (92,108) $. Ceci est un graphique de chaque distribution.

Enfin, trouvons la section essentielle de confiance bayésienne à 95%. En bref, calculez simplement la plage qui contient 95% des données dans la distribution de probabilité postérieure, et le résultat sera $ (0,392,0,530) $. Dans le graphique, la ligne rouge montre la limite inférieure de la section de condamnation, et la ligne violette montre la limite supérieure de la section de condamnation.

D'après ce résultat, le taux de gain de M. A est de l'ordre de $ (0,392, 0,530) $ avec une probabilité de 95%. Eh bien, cela a tendance à être un peu faible, mais $ \ theta = 0,5 $, qui est un taux de victoire de 50-50, est inclus dans cette fourchette, et je pense qu'il est prudent de dire que M. A n'est pas faible à Janken.

Résumé récapitulatif

L'intervalle de confiance C% signifie que lorsque l'expérience est répétée plusieurs fois (N fois), le nombre d'expériences dans lesquelles le paramètre d'intérêt est dans cet intervalle est d'environ NC fois. ――Dans les statistiques bayésiennes, vous pouvez calculer directement la probabilité qu'un paramètre soit inclus dans une certaine plage appelée intervalle de certitude.

en conclusion

L'intervalle de confiance est un concept de base appris depuis le début en statistique, mais il est en fait difficile à interpréter. Les statistiques bayésiennes permettent des interprétations plus intuitives, mais ont tendance à rendre le processus de calcul plus compliqué. Après tout, c'est une différence de philosophie, donc je pense que vous pouvez l'utiliser correctement selon votre goût.

Voici le code pour résoudre cet exemple et dessiner un graphique.

`ci.py`



# library
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# A-kun data
p = 42/100
n = 100

# Frequentist -------------------------------
# due to the binomial distribution with the central limit theorem...
mu = 100*p
sigma = np.sqrt(100*p*(1-p))
ci = norm.interval(0.95, loc=mu, scale=sigma)

# Bayesian ----------------------------------
from scipy.stats import beta

# plot beta distribution
fig, ax = plt.subplots(1,1)

def plotBetaPDF(a,b,ax):    
    # range
    x = np.linspace(beta.ppf(0.01, a, b), beta.ppf(0.99, a, b), 100)
    
    # visualize
    ax.plot(x, beta.pdf(x, a, b), lw=5, alpha=0.5)
    ax.set_xlabel('theta')
    ax.set_ylabel('P(theta)')

# prior beta distribution
a = 50
b = 50
plotBetaPDF(a,b,ax)
ax.text(0.54,6,'Prior')

# posterior beta distribution
a = 50+42
b = 50+100-42
plotBetaPDF(a,b,ax)
ax.text(0.48,10,'Posterior')

#plt.close('all')

# 95% Bayesian credible interval
bci = beta.interval(0.95,a,b)
print('95% Bayesian credible interval:' + str(bci))
ax.plot(np.array([bci[0],bci[0]]),np.array([0,12]))
ax.plot(np.array([bci[1],bci[1]]),np.array([0,12]))