Hier a expliqué les statistiques et l'estimation d'intervalle comme conditions préalables au test temporaire. Encore une fois, nettoyons la fonction NumPy que nous utilisons souvent pour trouver des statistiques.
Supposons que vous ayez les vecteurs numériques X et Y. Notez que l'importation numpy en tant que np et depuis les statistiques d'importation scipy sont une condition préalable.
une fonction | La description |
---|---|
np.max(X) | Trouvez la valeur maximale de X |
np.min(X) | Trouvez la valeur minimale de X |
np.mean(X) | Trouvez la valeur moyenne de X |
np.median(X) | Trouvez la valeur médiane de X |
np.var(X) | Trouvez la distribution de X |
np.std(X) | Trouvez l'écart type de X |
stats.scoreatpercentile(X, 25) | Trouvez le premier quadrant de X |
stats.scoreatpercentile(X, 75) | Trouvez le troisième quadrant de X |
np.dot(X, Y) | Trouvez le produit matriciel de X et Y |
np.outer(X, Y) | Trouvez le produit direct de X et Y |
np.corrcoef(X, Y)[0,1] | Trouvez le coefficient de corrélation entre X et Y |
Un test d'hypothèse est un test de la signification d'une hypothèse statistique. Puisqu'il s'agit d'un test d'hypothèse, vous devez faire une hypothèse. Si vous faites une hypothèse approximative, par exemple, les cas suivants peuvent être considérés.
Voici la définition de la distribution de probabilité.
Distribution | La description |
---|---|
Population binaire | Distribution binaire Bi si la distribution de la population est la distribution de Bernoulli avec la population p(1,p), X1 + ... +La distribution de Xn est une distribution binomiale Bi(n,p)Suivre. |
Population de Poisson | Distribution de Poisson avec population λ(λ)Puis X1+ ... +Xn est la distribution de Poisson Po(nλ)Suivre. |
Population régulière | La répartition de la population est la population u,Distribution normale de σ N(μ, σ^2)Puis X1+ ... +Xn est une distribution normale N(nμ, nσ^2)Suivre |
La description de la ** distribution normale ** qui apparaît souvent est [Wikipedia description](http://en.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88 Il peut être plus rapide de regarder autour de% 86% E5% B8% 83), mais la définition est la suivante.
f(x) = \frac 1 {\sqrt{2\pi\sigma}} exp \{-(x-\mu)^2/2{\sigma^2}\}, -\infty \lt x \lt \infty
Lorsque la distribution de probabilité X suit une distribution normale, la valeur attendue est la suivante.
E(X) = \int_{-\infty}^{\infty}x(1/{\sqrt{2\pi\sigma}}) exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \mu
Par conséquent, la distribution est donnée par
V(X) = \int_{-\infty}^{\infty}(x-\mu)^2(1/{\sqrt{2\pi\sigma}})exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \sigma^2
A partir de là, la distribution normale de la dispersion μ moyenne σ ^ 2 est exprimée comme suit.
N(\mu, \sigma^2)
** distribution exponentielle ** est une distribution continue définie par la fonction de densité de probabilité suivante.
f(x) = {\lambda}e^{-{\lambda}x} \\
pourtant\\
(x\ge0), 0 (x\lt0)
Cette distribution de probabilité a la propriété d'une distribution continue des temps d'attente. Par exemple, le temps d'attente, la durée de vie, la durée de vie utile ou les années avant le désastre d'un système avec un taux de défaillance constant.
La valeur attendue et la variance de la variable de probabilité X qui suit cette distribution peuvent être calculées par les équations suivantes.
E(X) = 1/{\lambda} \\
V(X) = 1/{\lambda^2}
Les événements rares, dans lesquels le nombre d'années jusqu'à l'occurrence est distribué par distribution exponentielle, ne sont pas artificiels même s'ils se produisent dans un proche avenir, même si la probabilité est faible. Par exemple, un grand tremblement de terre est une analogie facile à comprendre et familière.
Prenons une distribution binomiale comme Cointos. La distribution binomiale est uniforme, mais la loi des minorités de Poisson est valable si n est grand et p est petit (la probabilité est rare dans un grand nombre d'observations). Par exemple, il serait facile de comprendre le taux de réussite de produits énormes avec une très faible probabilité d'atteindre un contrat, comme une baleine qui n'a que 3 coups sur 1000 et le reste est sorti. Le théorème est le suivant.
P(X = k) = \frac {{\lambda}^xe^{-\lambda}} {k!}, \lambda \gt 0
Si la variable stochastique X suit la distribution de Poisson, les valeurs attendues et les variances sont: On peut dire que la distribution de Poisson est caractérisée par le fait que la valeur attendue et la variance sont égales à λ.
E(X) = \lambda \\
V(X) = \lambda
L'autre jour est également apparu ** Le test du chi carré ** vérifie la cohérence de la variance. Si l'hypothèse nulle n'est pas rejetée, la statistique de test est [distribution du chi carré](http://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4 % B9% 97% E5% 88% 86% E5% B8% 83).
Lorsque n échantillonnages aléatoires sont effectués à partir de la distribution normale N (μ, σ ^ 2)
Z = \sum_{i=1}^n \frac {(X_i - \mu)^2} {\sigma^2}
Z suit une distribution chi carré avec n degrés de liberté.
Par exemple, supposons que vous observiez une rue commerçante et que 45 femmes et 55 hommes soient observés. Il y avait un biais chez ces 100 personnes, mais selon une enquête, le ratio homme-femme pourrait en fait être de cinquante-cinquante.
n = \frac {(45-50)^2} {50} + \frac
{(55-50)^2} {50} = 1
A ce moment, le degré de liberté n est 1. La distribution du chi carré avec 1 degré de liberté est de 0,32 en supposant que les hommes et les femmes sont égaux en premier lieu, elle n'est donc pas rejetée. En d'autres termes, cela peut arriver assez.
** test t (test t de Student) ** teste la valeur moyenne pour les petits échantillons. En utilisant la moyenne de la population u, la moyenne de l'échantillon X et l'écart-type de l'échantillon s pour un échantillon de taille n extrait d'une population normalement distribuée, T peut être obtenu comme le montre l'équation suivante.
T = \frac {\sqrt{n-1} (X - \mu)} s
Alors T suit une distribution t avec n-1 degrés de liberté.
Expliquons la différence entre le test du chi carré et le test t, et donnons un exemple de ce à quoi ressemblera le code d'implémentation.
Le test du chi carré examine s'il existe une relation entre les ventes en magasin et les ventes de produits pour des données agrégées telles que:
Boutique | Produit A | Produit B | total |
---|---|---|---|
Magasin X | 435 | 165 | 600 |
Magasin Y | 265 | 135 | 400 |
total | 700 | 300 | 1000 |
Le test du chi carré a été effectué précédemment, il sera donc omis.
Par exemple, le test t vérifie s'il existe une différence significative entre les scores du japonais et des mathématiques pour les données suivantes. (* Pseudo données)
Numéro de présence | langue nationale | Math |
---|---|---|
1 | 68 | 86 |
2 | 75 | 83 |
3 | 80 | 76 |
4 | 71 | 81 |
5 | 73 | 75 |
6 | 79 | 82 |
7 | 69 | 87 |
8 | 65 | 75 |
Quand ceci est testé par t, cela devient comme ça.
import numpy as np
import scipy as sp
from scipy import stats
X = [68 75 80 71 73 79 69 65]
Y = [86 83 76 81 75 82 87 75]
print(X)
print(Y)
t, p = stats.ttest_rel(X, Y)
print( "la valeur t est%(t)s" %locals() )
print( "La probabilité est%(p)s" %locals() )
if p < 0.05:
print("il y a une différence significative")
else:
print("Il n'y a pas de différence significative")
# [68 75 80 71 73 79 69 65]
# [86 83 76 81 75 82 87 75]
#la valeur t est-2.9923203754253302
#La probabilité est 0.0201600161737
#il y a une différence significative
Nous avons constaté qu'il y avait une différence significative entre les notes japonaises et mathématiques.
Qu'en est-il des prochaines années scientifiques et sociales?
Numéro de présence | Science | société |
---|---|---|
1 | 85 | 80 |
2 | 69 | 76 |
3 | 77 | 84 |
4 | 77 | 93 |
5 | 75 | 76 |
6 | 74 | 80 |
7 | 87 | 79 |
8 | 69 | 84 |
Essayons avec le même code.
# [85 69 77 77 75 74 87 69]
# [80 76 84 93 76 80 79 84]
#la valeur t est-1.6077470858053244
#La probabilité est 0.151925908683
#Il n'y a pas de différence significative
Il s'avère que cette fois, il n'y a pas de différence significative.
Recommended Posts