1. Statistiques apprises avec Python 1-3. Calcul de diverses statistiques (statistiques)

statistics est une bibliothèque Python standard et est un package de calculs statistiques. Nous utiliserons ces statistiques pour calculer diverses statistiques. (En règle générale, écrivez le code et vérifiez le résultat sur Google Colaboratory)

** ⑴ Importez la bibliothèque utilisée pour le calcul numérique **

Tout d'abord, utilisez la commande ! Pip install xxxx pour installer les statistiques sur le Colaboratory.

!pip install statistics
import statistics as stat #Importer des statistiques

** ⑵ Préparez les données **

data = [12, 3, 5, 2, 6, 7, 9, 6, 4, 11]

** ⑶ Calculer l'écart-type de la mère / l'écart-type non biaisé **

stat.pstdev(data)

La fonction pstdev des statistiques est une abréviation de ** p ** opulation ** st ** andard ** dev ** iation, c'est-à-dire que les statistiques sont calculées en spécifiant ** l'écart type de la population **. 001_003_001.PNG

Ensuite, calculez l'écart type non biaisé.

stat.stdev(data)

En anglais, ** écart-type non biaisé ** donne ** st ** andard ** dev ** iation, mais en statistique, c'est la fonction stdev. 001_003_002.PNG

** Distribué </ font> **

L'écart type est la racine carrée de la variance. Et ** variance ** est un indice indiquant "combien les données s'écartent de la valeur moyenne", et il se présente comme suit lorsqu'il est écrit dans la formule. σ^2 = \frac{1}{N} {\displaystyle {\sum_{i=1}^{N} (x_{i}-μ)^2}} Le nombre total de données est de $ N $. $ (X_ {i} -μ) $ dans la formule est la $ i $ ème valeur des données $ x $ moins la valeur moyenne $ μ $, qui est appelée ** écart **. Le carré de cet écart, $ (x_ {i} -μ) ^ 2 $, est additionné pour toutes les données de $ i = 1 $ th à $ N $ th $ \ sum_ {i = 1}. C'est ce que signifie ^ {N} $. Ceci est collectivement appelé la ** somme des écarts au carré **. La distribution est calculée en multipliant cette somme des écarts au carré par $ \ frac {1} {N} $, c'est-à-dire en divisant par le nombre de données $ N $. Par ailleurs, si la "différence entre les données et la valeur moyenne" est la distance entre elles, la variance peut être considérée comme la "valeur moyenne de la distance entre les données et la valeur moyenne" lorsqu'elle est considérée comme une donnée entière. Il montre le degré de variation des données dans leur ensemble, à quel point il est éloigné de la valeur moyenne. Pour être précis, cela s'appelle ** distribution d'échantillon **. On sait que la variance de l'échantillon est biaisée, et il est courant d'utiliser la ** variance sans biais ** qui corrige cette lacune.

** ⑷ Calculer la variance sans biais **

stat.variance(data)

001_003_003.PNG

Au cas où, vérifions en prenant la racine carrée de la dispersion non biaisée.

import numpy as np #Importer Numpy
data_2 = stat.variance(data) #Données de variable de valeur de distribution non biaisées_Stocker dans 2
np.sqrt(data_2) # data_Prendre la racine carrée de 2

001_003_004.PNG

La racine carrée de la variance sans biais est certainement cohérente avec l'écart-type sans biais.

** distribution non biaisée </ font> **

La formule de calcul de la distribution sans biais est présentée ci-dessous. σ^2 = \frac{1}{N-1} {\displaystyle {\sum_{i=1}^{N} (x_{i}-μ)^2}} La différence avec la formule de distribution précédente est que $ \ frac {1} {N} $ devient $ \ frac {1} {N-1} $. La variance sans biais est légèrement supérieure à la variance de l'échantillon car le dénominateur est réduit de 1. Pourquoi fais-tu cela? Ce que je veux rappeler ici, c'est que la valeur moyenne est calculée à l'avance pour calculer la variance. Si c'est vrai, je veux utiliser la moyenne de la population, mais je ne le sais pas, donc je n'ai pas d'autre choix que d'utiliser la moyenne de l'échantillon. Puisque cette moyenne d'échantillon ne représente qu'une partie de la moyenne de la population, il est naturel de penser qu'elle est légèrement différente de la moyenne réelle (moyenne de la population) de la population.

Par conséquent, je voudrais examiner le mécanisme de cette «déviation». 001_003_005.PNG En utilisant uniquement la moyenne de l'échantillon, la variance de l'échantillon sera toujours plus petite que la vraie variance qu'elle devrait être. Afin de corriger ce biais, la ** dispersion sans biais **, c'est-à-dire la «dispersion sans biais» est utilisée, et ** l'écart-type sans biais **, qui est la racine carrée de la dispersion, est utilisé.

Recommended Posts