[PYTHON] [Statistiques pour les programmeurs] Moyenne, médiane et la plus fréquente

table des matières

Statistiques pour les programmeurs - Table des matières

Aperçu

Lorsqu'il existe des données numériques, la valeur qui représente ces données est appelée valeur représentative. Il existe les trois valeurs typiques suivantes. La valeur représentative dépend de la forme de la distribution des données.

Valeur moyenne

La valeur moyenne est la valeur totale de toutes les données divisée par le nombre de données.

\bar{x} = \frac{(x_1+x_2+x_3+・ ・ ・+x_n)}{n}

Dans le cas d'une table de distribution de fréquence, vous pouvez utiliser «valeur de classe» et «fréquence» pour calculer la valeur moyenne. Si vous avez n classes, la valeur de la classe est «v» et la fréquence est «f», vous pouvez calculer avec la formule suivante.

\bar{X} = \frac{(f_1v_1 + f_2v_2+・ ・ ・+ f_3v_3)}{(f_1 + f_2 +・ ・ ・+ f_n)}

À titre d'exemple, calculons la valeur moyenne en fonction du tableau de distribution des fréquences des résultats des tests de 10 étudiants.

classe Valeur de classe la fréquence
0 point ou plus et moins de 25 points 12.5 1
25 points ou plus et moins de 50 points 37.5 3
50 points ou plus et moins de 75 points 62.5 4
75 points ou plus 87.5 2

Le score moyen pour ce test est calculé ci-dessous.

\bar{X}=\frac{({1\times12.5}) + ({3\times37.5}) + ({4\times62.5}) + ({2\times87.5})}{(1+3+4+2)}

Au fait, bien que ce soit un peu hors sujet, il existe plusieurs méthodes pour calculer la valeur moyenne en fonction de l'application. Veuillez vous y référer également. ** Article connexe: Il existe plusieurs façons de calculer la valeur moyenne **

Médian

La valeur médiane est la valeur qui se trouve au milieu lorsque les données sont organisées par ordre croissant ou décroissant. Si le nombre de données est pair, la valeur médiane est de deux et leur somme et divisée par deux est la valeur médiane.

Lorsque le nombre de données est impair

1, 3, 4, 5, 7

Dans ce cas, la valeur médiane est «4».

Lorsque le nombre de données est pair

1, 3, 4, 5, 7, 10

Dans ce cas, la valeur médiane est «4» et «5», elle peut donc être calculée par la formule suivante, et la valeur médiane est «4,5».

4.5 = \frac{4+5}{2}

Valeur la plus fréquente (mode)

La valeur la plus fréquente est la valeur avec le plus grand nombre de données.

1, 3, 4, 5, 7, 7, 10

Par exemple, la valeur la plus fréquente dans le cas ci-dessus serait «7».

Dans le cas du tableau de distribution de fréquences, la valeur de classe avec la fréquence la plus élevée est la valeur la plus fréquente. Dans le cas du tableau de distribution de fréquence des scores du test précédent, celui avec la fréquence la plus élevée est «4» sur «50 points ou plus et moins de 75 points», donc la valeur la plus fréquente est sa valeur de classe «62,5». ..

classe Valeur de classe la fréquence
0 point ou plus et moins de 25 points 12.5 1
25 points ou plus et moins de 50 points 37.5 3
50 points ou plus et moins de 75 points 62.5 4
75 points ou plus 87.5 2

De plus, s'il y a le même nombre de «5» et «7», comme indiqué ci-dessous, les valeurs les plus fréquentes seront «5» et «7».

1, 3, 4, 5, 5, 7, 7, 10

De plus, dans les cas suivants, cela signifie que la valeur la plus fréquente n'existe pas.

1, 3, 4, 5, 7, 10

Relation entre la distribution de l'histogramme et les valeurs moyennes, médianes et les plus fréquentes

Dans la distribution de l'histogramme, s'il y a un pic dans le pic, ce qui suit est souvent vrai. C'est ce qu'on appelle la règle empirique de Pearson.

Des trois suivants, il est toujours vrai s'il est symétrique, mais les deux autres sont des règles empiriques et ne sont pas toujours valables.

Lorsque la distribution est symétrique

Si la distribution de l'histogramme est symétrique comme indiqué ci-dessous, la valeur moyenne, la valeur médiane et la valeur la plus fréquente sont toutes identiques à la position de la ligne rouge.

graph_1.png

Si la distribution est biaisée vers la gauche

Si la distribution n'est pas symétrique mais biaisée vers la gauche (queue vers la droite) Comme indiqué ci-dessous, la valeur la plus fréquente, la valeur médiane et la valeur moyenne sont souvent organisées dans cet ordre. (La ligne est dessinée à la position approximative)

graph_2.png

Si la distribution est biaisée vers la droite

Si la distribution n'est pas symétrique mais biaisée vers la droite (queue vers la gauche) Comme indiqué ci-dessous, il est souvent organisé dans l'ordre de la valeur moyenne, de la valeur médiane et de la valeur la plus fréquente. (La ligne est dessinée à la position approximative)

graph_3.png

Quelle devrait être la valeur représentative

Laquelle des valeurs moyennes, médianes et les plus fréquentes doit être la valeur représentative dépend de la distribution des données. Les avantages et les inconvénients de chacun sont résumés.

Valeur représentative mérite Démérite
Valeur moyenne Peut refléter toutes les données Sera déplacé s'il y a une valeur extrême
Médian Moins sensible aux valeurs extrêmes Difficile de remarquer des changements autres que la valeur moyenne
Valeur la plus fréquente Moins sensible aux valeurs extrêmes Il est difficile de se référer lorsque le nombre de données est petit

Laquelle doit être utilisée comme valeur représentative dépend de la façon dont les données sont distribuées. Fondamentalement, si la différence entre la valeur moyenne et la valeur médiane est faible, je pense qu'il vaut mieux utiliser la valeur moyenne comme valeur représentative. Si la différence entre les deux est importante, je pense qu'il est prudent d'examiner également les valeurs médianes et les plus fréquentes.

Dans l'histogramme de l'exemple précédent, tous avaient une montagne, mais il peut y avoir plusieurs montagnes. Dans un tel cas, il est difficile de déterminer la valeur représentative, mais il peut être nécessaire de concevoir la méthode de collecte des données en premier lieu.

c'est tout

Article associé

référence

Recommended Posts

[Statistiques pour les programmeurs] Moyenne, médiane et la plus fréquente
[Statistiques pour les programmeurs] Théorème de Bayes
[Statistiques pour les programmeurs] Box whiskers
[Algorithme x Python] Calcul des statistiques de base Partie 2 (moyenne, médiane, la plus fréquente)
[Statistiques pour les programmeurs] Qu'est-ce qu'un événement?
[Statistiques pour les programmeurs] Table des matières-Science des données
[Statistiques pour les programmeurs] Probabilité conditionnelle et théorème du multiplicateur
[Statistiques pour les programmeurs] Courbe de Lorenz et coefficient de Gini
Programme d'étude des statistiques
Calculer la moyenne, la médiane, la plus fréquente, la variance, l'écart type en Python
[Statistiques pour les programmeurs] Dispersion, écart type et coefficient de fluctuation
[Statistiques pour les programmeurs] Variables de probabilité, distributions de probabilité et fonctions de densité de probabilité