[PYTHON] Test d'hypothèse et distribution de probabilité

Hier a expliqué les statistiques et l'estimation d'intervalle comme conditions préalables au test temporaire. Encore une fois, nettoyons la fonction NumPy que nous utilisons souvent pour trouver des statistiques.

Fonction de calcul statistique de base fréquemment utilisée

Supposons que vous ayez les vecteurs numériques X et Y. Notez que l'importation numpy en tant que np et depuis les statistiques d'importation scipy sont une condition préalable.

une fonction La description
np.max(X) Trouvez la valeur maximale de X
np.min(X) Trouvez la valeur minimale de X
np.mean(X) Trouvez la valeur moyenne de X
np.median(X) Trouvez la valeur médiane de X
np.var(X) Trouvez la distribution de X
np.std(X) Trouvez l'écart type de X
stats.scoreatpercentile(X, 25) Trouvez le premier quadrant de X
stats.scoreatpercentile(X, 75) Trouvez le troisième quadrant de X
np.dot(X, Y) Trouvez le produit matriciel de X et Y
np.outer(X, Y) Trouvez le produit direct de X et Y
np.corrcoef(X, Y)[0,1] Trouvez le coefficient de corrélation entre X et Y

Test d'hypothèse et distribution de probabilité

Un test d'hypothèse est un test de la signification d'une hypothèse statistique. Puisqu'il s'agit d'un test d'hypothèse, vous devez faire une hypothèse. Si vous faites une hypothèse approximative, par exemple, les cas suivants peuvent être considérés.

Exemple de cas pour faire une hypothèse

  1. Le jet de dés devrait être de 1/6, mais il semble que la fréquence de 6 soit élevée (je pense que c'est fou).
  2. Un mois après avoir essayé de suivre un régime, mon poids est passé de 75 kg à 70 kg. Cependant, le poids fluctue en raison d'erreurs de mesure et de fluctuations quotidiennes. Si nous suivons une distribution normale avec un écart type de 1 kg incluant ces erreurs et fluctuations, est-ce mince?
  3. Nous avons étudié le nombre de cas de peste dans deux zones A et B, qui sont des diagnostics médicaux. Dans 10 études, 52 patients ont été trouvés dans A et 28 dans B. À première vue, la zone A semble avoir une prévalence plus élevée d'épidémies, mais la population de la zone est différente. Si nous savons maintenant que la fréquence d'apparition des patients suit la distribution de Poisson, pouvons-nous vraiment le dire?
  4. Les femmes dans la trentaine achètent deux fois plus de produits que les femmes dans la vingtaine. Une enquête auprès de 100 personnes pour confirmer cela a révélé qu'il y avait 52 femmes dans la trentaine, 30 femmes dans la vingtaine et 15 dans d'autres groupes d'âge. Cependant, lorsque le nombre de personnes interrogées a été porté à 150, 300 et 500, le ratio était différent. Comment prendre une décision dans un tel cas?

Exemple de distribution de statistiques

Voici la définition de la distribution de probabilité.

Distribution La description
Population binaire Distribution binaire Bi si la distribution de la population est la distribution de Bernoulli avec la population p(1,p), X1 + ... +La distribution de Xn est une distribution binomiale Bi(n,p)Suivre.
Population de Poisson Distribution de Poisson avec population λ(λ)Puis X1+ ... +Xn est la distribution de Poisson Po(nλ)Suivre.
Population régulière La répartition de la population est la population u,Distribution normale de σ N(μ, σ^2)Puis X1+ ... +Xn est une distribution normale N(nμ, nσ^2)Suivre

Distribution de probabilité de type continu principale

distribution normale

La description de la ** distribution normale ** qui apparaît souvent est [Wikipedia description](http://en.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88 Il peut être plus rapide de regarder autour de% 86% E5% B8% 83), mais la définition est la suivante.

f(x) = \frac 1 {\sqrt{2\pi\sigma}} exp \{-(x-\mu)^2/2{\sigma^2}\}, -\infty \lt x \lt \infty

Lorsque la distribution de probabilité X suit une distribution normale, la valeur attendue est la suivante.

E(X) = \int_{-\infty}^{\infty}x(1/{\sqrt{2\pi\sigma}}) exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \mu

Par conséquent, la distribution est donnée par

V(X) = \int_{-\infty}^{\infty}(x-\mu)^2(1/{\sqrt{2\pi\sigma}})exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \sigma^2

A partir de là, la distribution normale de la dispersion μ moyenne σ ^ 2 est exprimée comme suit.

N(\mu, \sigma^2)

Distribution exponentielle

** distribution exponentielle ** est une distribution continue définie par la fonction de densité de probabilité suivante.

f(x) = {\lambda}e^{-{\lambda}x} \\
pourtant\\
(x\ge0), 0 (x\lt0)

Cette distribution de probabilité a la propriété d'une distribution continue des temps d'attente. Par exemple, le temps d'attente, la durée de vie, la durée de vie utile ou les années avant le désastre d'un système avec un taux de défaillance constant.

La valeur attendue et la variance de la variable de probabilité X qui suit cette distribution peuvent être calculées par les équations suivantes.

E(X) = 1/{\lambda} \\
V(X) = 1/{\lambda^2}

Les événements rares, dans lesquels le nombre d'années jusqu'à l'occurrence est distribué par distribution exponentielle, ne sont pas artificiels même s'ils se produisent dans un proche avenir, même si la probabilité est faible. Par exemple, un grand tremblement de terre est une analogie facile à comprendre et familière.

Principales distributions de probabilité discrètes

Distribution de Poisson

Prenons une distribution binomiale comme Cointos. La distribution binomiale est uniforme, mais la loi des minorités de Poisson est valable si n est grand et p est petit (la probabilité est rare dans un grand nombre d'observations). Par exemple, il serait facile de comprendre le taux de réussite de produits énormes avec une très faible probabilité d'atteindre un contrat, comme une baleine qui n'a que 3 coups sur 1000 et le reste est sorti. Le théorème est le suivant.

P(X = k) = \frac {{\lambda}^xe^{-\lambda}} {k!}, \lambda \gt 0

Si la variable stochastique X suit la distribution de Poisson, les valeurs attendues et les variances sont: On peut dire que la distribution de Poisson est caractérisée par le fait que la valeur attendue et la variance sont égales à λ.

E(X) = \lambda \\
V(X) = \lambda

Différents tests d'hypothèse

Test du chi carré

L'autre jour est également apparu ** Le test du chi carré ** vérifie la cohérence de la variance. Si l'hypothèse nulle n'est pas rejetée, la statistique de test est [distribution du chi carré](http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4 % B9% 97% E5% 88% 86% E5% B8% 83).

Lorsque n échantillonnages aléatoires sont effectués à partir de la distribution normale N (μ, σ ^ 2)

Z = \sum_{i=1}^n \frac {(X_i - \mu)^2} {\sigma^2}

Z suit une distribution chi carré avec n degrés de liberté.

Par exemple, supposons que vous observiez une rue commerçante et que 45 femmes et 55 hommes soient observés. Il y avait un biais chez ces 100 personnes, mais selon une enquête, le ratio homme-femme pourrait en fait être de cinquante-cinquante.

n = \frac {(45-50)^2} {50} + \frac 
{(55-50)^2} {50} = 1

A ce moment, le degré de liberté n est 1. La distribution du chi carré avec 1 degré de liberté est de 0,32 en supposant que les hommes et les femmes sont égaux en premier lieu, elle n'est donc pas rejetée. En d'autres termes, cela peut arriver assez.

test t

** test t (test t de Student) ** teste la valeur moyenne pour les petits échantillons. En utilisant la moyenne de la population u, la moyenne de l'échantillon X et l'écart-type de l'échantillon s pour un échantillon de taille n extrait d'une population normalement distribuée, T peut être obtenu comme le montre l'équation suivante.

T = \frac {\sqrt{n-1} (X - \mu)} s

Alors T suit une distribution t avec n-1 degrés de liberté.

Pratique du test d'hypothèse

Expliquons la différence entre le test du chi carré et le test t, et donnons un exemple de ce à quoi ressemblera le code d'implémentation.

Test du chi carré

Le test du chi carré examine s'il existe une relation entre les ventes en magasin et les ventes de produits pour des données agrégées telles que:

Boutique Produit A Produit B total
Magasin X 435 165 600
Magasin Y 265 135 400
total 700 300 1000

Le test du chi carré a été effectué précédemment, il sera donc omis.

test t

Par exemple, le test t vérifie s'il existe une différence significative entre les scores du japonais et des mathématiques pour les données suivantes. (* Pseudo données)

Numéro de présence langue nationale Math
1 68 86
2 75 83
3 80 76
4 71 81
5 73 75
6 79 82
7 69 87
8 65 75

Quand ceci est testé par t, cela devient comme ça.

import numpy as np
import scipy as sp
from scipy import stats

X = [68 75 80 71 73 79 69 65]
Y = [86 83 76 81 75 82 87 75]

print(X)
print(Y)

t, p = stats.ttest_rel(X, Y)

print( "la valeur t est%(t)s" %locals() )
print( "La probabilité est%(p)s" %locals() )

if p < 0.05:
    print("il y a une différence significative")
else:
    print("Il n'y a pas de différence significative")

# [68 75 80 71 73 79 69 65]
# [86 83 76 81 75 82 87 75]
#la valeur t est-2.9923203754253302
#La probabilité est 0.0201600161737
#il y a une différence significative

Nous avons constaté qu'il y avait une différence significative entre les notes japonaises et mathématiques.

Qu'en est-il des prochaines années scientifiques et sociales?

Numéro de présence Science société
1 85 80
2 69 76
3 77 84
4 77 93
5 75 76
6 74 80
7 87 79
8 69 84

Essayons avec le même code.

# [85 69 77 77 75 74 87 69]
# [80 76 84 93 76 80 79 84]
#la valeur t est-1.6077470858053244
#La probabilité est 0.151925908683
#Il n'y a pas de différence significative

Il s'avère que cette fois, il n'y a pas de différence significative.

Recommended Posts

Test d'hypothèse et distribution de probabilité
Distribution et test
[Test statistique niveau 2] Distribution de probabilité discrète
Post test
Distribution et test
Module de débogage et de test Python
Test d'hypothèse et distribution de probabilité
Distribution de probabilité de niveau 2 du test statistique apprise en Python ②
Concept de raisonnement bayésien (2) ... Estimation bayésienne et distribution de probabilité
Distribution de probabilité de test statistique de niveau 2 apprise en Python
Test d'hypothèse statistique bayésienne
Distribution OS et Linux
Distribution gaussienne mixte et logsumexp
Test d'hypothèse pour l'amélioration du produit
Statistiques de base et distribution gaussienne
Module de débogage et de test Python
Tester l'adéquation de la distribution
PRML Chapitre 2 Distribution des probabilités Méthode non paramétrique
[Introduction aux data scientists] Bases de la probabilité et des statistiques ♬ Variable de probabilité / probabilité et distribution de probabilité
Text mining: distribution de densité de probabilité sur hypersphère et clustering de texte avec KMeans