Statistiques pour les programmeurs - Table des matières
J'ai les données suivantes pour A et B. Dans les deux cas, le total des données est de 15 et la moyenne est de 3, mais la variabilité des données en A et B n'est pas similaire.
A | B |
---|---|
1 | 3 |
2 | 3 |
3 | 3 |
4 | 3 |
5 | 3 |
--Total 15 --En moyenne 3
Pour vérifier une telle variabilité des données, nous utilisons quelque chose appelé distribution.
Afin de comprendre la variance, il est également nécessaire de comprendre l'écart et l'écart moyen. Donc, avant la distribution, je vais vous expliquer les deux.
L'écart est la moyenne de la valeur moyenne plus toutes les différences entre les données. Dans le cas de l'exemple ci-dessus, ce serait:
A | Différence par rapport à la moyenne | B | Différence par rapport à la moyenne |
---|---|---|---|
1 | 2 | 3 | 0 |
2 | 1 | 3 | 0 |
3 | 0 | 3 | 0 |
4 | -1 | 3 | 0 |
5 | -2 | 3 | 0 |
total | 0 | - | 0 |
moyenne | 0 | - | 0 |
L'écart total est toujours égal à 0. Par conséquent, la moyenne sera également 0, il n'est donc pas possible de vérifier la variation des données par l'écart.
L'écart moyen est la moyenne de la somme de la valeur moyenne et de la valeur absolue de la différence entre chaque donnée. Dans le cas de l'exemple ci-dessus, ce serait:
A | Différence par rapport à la moyenne | B | Différence par rapport à la moyenne |
---|---|---|---|
1 | 2 | 3 | 0 |
2 | 1 | 3 | 0 |
3 | 0 | 3 | 0 |
4 | 1 | 3 | 0 |
5 | 2 | 3 | 0 |
total | 6 | - | 0 |
moyenne | 1.2 | - | 0 |
Puisqu'il s'agit de la moyenne des valeurs absolues totales des différences entre chaque donnée, la valeur moyenne sera de 0 ou plus et vous pouvez voir comment les données varient. Cependant, il est gênant lorsque le nombre de données augmente car toutes les valeurs doivent être remplacées par des valeurs absolues avant le calcul.
La variance est la moyenne de la somme de la moyenne et du carré de la différence entre chaque donnée.
V =Distribué
n =Nombre de données
\bar{x} =Valeur moyenne
Ensuite, ce qui suit tient.
V = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2
Je vais en fait le calculer.
2 = \frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}
Dans une table
A | Différence par rapport à la moyenne | Différence quadratique par rapport à la moyenne |
---|---|---|
1 | 2 | 4 |
2 | 1 | 1 |
3 | 0 | 0 |
4 | -1 | 1 |
5 | -2 | 4 |
total | 0 | 10 |
moyenne | 0 | Valeur distribuée=2 |
B | Différence par rapport à la moyenne | Différence quadratique par rapport à la moyenne |
---|---|---|
1 | 0 | 0 |
2 | 0 | 0 |
3 | 0 | 0 |
4 | 0 | 0 |
5 | 0 | 0 |
total | 0 | 0 |
moyenne | 0 | Valeur distribuée=0 |
Dans ce cas, la distribution de A est "2" et B est "0".
V_A = 2
V_B = 0
Vous pouvez voir que plus la valeur de la variance est petite, plus chaque donnée est proche de la valeur moyenne, moins la variation est importante et plus la valeur est élevée, plus la variation est importante. La distribution dans cet exemple est "2" pour A et "0" pour B, donc A a une plus grande variation.
L'écart type, comme la variance, est un indicateur de la variation des données, C'est la variance calculée par la racine carrée.
Puisque la valeur de distribution est calculée après que chaque donnée est au carré, Vous pouvez comparer les écarts, mais vous ne pouvez ni comparer ni calculer les écarts et les moyennes.
Par exemple, si vous souhaitez distribuer des données avec des compteurs en unités, Comme l'unité est également au carré, il est possible de comparer et de calculer les variances, mais pas de comparer et de calculer la variance et la moyenne.
L'unité des données d'origine est le mètre,
m
Parce que la dispersion est le carré du mètre
m^2
Ne peut être comparé aux données d'origine ou à la moyenne.
Par conséquent, en utilisant la racine carrée pour la variance, l'unité au carré est également restaurée et il devient possible de comparer et de calculer avec la moyenne. L'écart type peut être calculé par la formule suivante.
\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}
En fait, calculons l'écart type des données de A. Puisque les données de A sont "1, 2, 3, 4, 5" et que la valeur moyenne est "3", l'écart type peut être calculé par la formule suivante.
\sqrt{2} = \sqrt{\frac{1}{5} \{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2\}}
Dans une table
A | Différence par rapport à la moyenne | Différence quadratique par rapport à la moyenne |
---|---|---|
1 | 2 | 4 |
2 | 1 | 1 |
3 | 0 | 0 |
4 | -1 | 1 |
5 | -2 | 4 |
total | 0 | 10 |
moyenne | 0 | Valeur distribuée=2 |
- | - | écart-type=√2 |
La solution est «√2», donc l'écart type est «d'environ 1,4». B est «0» sans qu'il soit nécessaire de calculer.
En d'autres termes
\sigma_A \simeq 1.4
\sigma_B = 0
On peut voir que A a une plus grande variation de données.
Il s'agit de la valeur obtenue en divisant l'écart type par la valeur moyenne.
Vérifiez les prix de l'eau en bouteille PET de 500 ml et des voitures (même modèle) en visitant 10 magasins. J'ai essayé de savoir combien chaque prix varie d'un magasin à l'autre. Vous trouverez ci-dessous un tableau résumant leurs moyennes et leurs écarts types.
Produit | Prix moyen(Cercle) | écart-type(Cercle) |
---|---|---|
eau | 89 | 9 |
voiture | 3,136,500 | 284,869 |
Étant donné que la valeur de l'écart type est extrêmement élevée pour la voiture, cela signifie que le prix de la voiture est plus variable. Cependant, comme le prix unitaire est trop différent entre l'eau et la voiture, il est naturel que l'écart type soit plus grand pour la voiture, et il ne s'agit pas d'une comparaison du taux de variation des prix.
Par conséquent, nous utilisons un coefficient de fluctuation.
Les coefficients de fluctuation vous permettent de comparer la variabilité par des valeurs relatives plutôt que par des valeurs absolues. Le coefficient de fluctuation est calculé en divisant l'écart type par la valeur moyenne.
La formule est la suivante.
CV = \frac{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}}{\bar{x}}
Je vais en fait le calculer.
Produit | Prix moyen(Cercle) | écart-type(Cercle) |
---|---|---|
eau | 89 | 14 |
voiture | 3,136,500 | 284,869 |
Pour chacun, divisez l'écart type par le prix moyen. Puis
Coefficient de fluctuation de l'eau
0.15 = 14 \div 89
Coefficient de variation de voiture
0.09 = 284,869 \div 3,136,500
Le coefficient de fluctuation de l'eau est de "0,15" Le coefficient de fluctuation de la voiture est de «0,09»
Vous voyez donc que le prix de l'eau est relativement plus variable.
c'est tout
Recommended Posts