1. Mit Python 1-3 gelernte Statistiken. Berechnung verschiedener Statistiken (Statistiken)

Statistics ist eine Standard-Python-Bibliothek und ein Paket für statistische Berechnungen. Wir werden diese Statistiken verwenden, um verschiedene Statistiken zu berechnen. (Schreiben Sie in der Regel den Code und überprüfen Sie das Ergebnis in Google Colaboratory.)

** ⑴ Importieren Sie die für die numerische Berechnung verwendete Bibliothek **

Verwenden Sie zunächst den Befehl ! Pip install xxxx, um Statistiken in Colaboratory zu installieren.

!pip install statistics
import statistics as stat #Statistiken importieren

** ⑵ Daten vorbereiten **

data = [12, 3, 5, 2, 6, 7, 9, 6, 4, 11]

** ⑶ Mutterstandardabweichung / unverzerrte Standardabweichung berechnen **

stat.pstdev(data)

Die "pstdev" -Funktion der Statistik ist eine Abkürzung für "p ** opulation ** st ** andard ** dev ** iation", dh die Statistik wird durch Angabe der ** Populationsstandardabweichung ** berechnet. 001_003_001.PNG

Berechnen Sie als Nächstes die unverzerrte Standardabweichung.

stat.stdev(data)

Im Englischen bedeutet ** unverzerrte Standardabweichung ** ** st ** andard ** Abweichung **, in der Statistik ist dies die stdev -Funktion. 001_003_002.PNG

** Verteilt </ font> **

Die Standardabweichung ist die Quadratwurzel der Varianz. Und ** Varianz ** ist ein Index, der angibt, "wie stark die Daten vom Durchschnittswert abweichen" und wie folgt lautet, wenn er in die Formel geschrieben wird. σ^2 = \frac{1}{N} {\displaystyle {\sum_{i=1}^{N} (x_{i}-μ)^2}} Die Gesamtzahl der Daten beträgt $ N $. $ (X_ {i} -μ) $ in der Formel ist der $ i $ -te Wert der Daten $ x $ abzüglich des Durchschnittswerts $ μ $, der als ** Abweichung ** bezeichnet wird. Das Quadrat dieser Abweichung, $ (x_ {i} -μ) ^ 2 $, wird für alle Daten von $ i = 1 $ th bis $ N $ th $ \ sum_ {i = 1} summiert. Das bedeutet ^ {N} $. Dies wird zusammenfassend als ** Summe der quadratischen Abweichungen ** bezeichnet. Die Verteilung wird berechnet, indem diese Summe der quadratischen Abweichungen mit $ \ frac {1} {N} $ multipliziert wird, dh durch die Anzahl der Daten $ N $ dividiert wird. Übrigens, wenn die "Differenz zwischen den Daten und dem Durchschnittswert" der Abstand zwischen ihnen ist, kann die Varianz als "Durchschnittswert des Abstands zwischen den Daten und dem Durchschnittswert" bezeichnet werden, wenn sie als ganze Daten betrachtet werden. Es zeigt den Grad der Variation in den Daten als Ganzes, wie weit sie vom Durchschnittswert entfernt sind. Um genau zu sein, wird dies als ** Probenverteilung ** bezeichnet. Es ist bekannt, dass die Stichprobenvarianz verzerrt ist, und es ist üblich, eine ** unverzerrte Varianz ** zu verwenden, die diesen Mangel korrigiert.

** ⑷ Unvoreingenommene Varianz berechnen **

stat.variance(data)

001_003_003.PNG

Für alle Fälle überprüfen wir die Quadratwurzel der unvoreingenommenen Dispersion.

import numpy as np #Numpy importieren
data_2 = stat.variance(data) #Unvoreingenommene Verteilungswertvariablendaten_In 2 lagern
np.sqrt(data_2) # data_Nimm die Quadratwurzel von 2

001_003_004.PNG

Die Quadratwurzel der unverzerrten Varianz stimmt sicherlich mit der unverzerrten Standardabweichung überein.

** unvoreingenommene Verteilung </ font> **

Die Formel zur Berechnung der unverzerrten Verteilung ist unten gezeigt. σ^2 = \frac{1}{N-1} {\displaystyle {\sum_{i=1}^{N} (x_{i}-μ)^2}} Der Unterschied zur vorherigen Stichprobenverteilungsformel besteht darin, dass aus $ \ frac {1} {N} $ $ \ frac {1} {N-1} $ wird. Die unverzerrte Varianz ist geringfügig größer als die Stichprobenvarianz, da der Nenner um 1 reduziert wird. Warum tust du das? Ich möchte hier daran erinnern, dass der Durchschnittswert im Voraus berechnet wird, um die Varianz zu berechnen. Wenn es stimmt, möchte ich den Bevölkerungsdurchschnitt verwenden, aber das weiß ich nicht, daher habe ich keine andere Wahl, als den Stichprobenmittelwert zu verwenden. Da dieser Stichprobendurchschnitt nur einen Teil des Durchschnitts in der Bevölkerung ausmacht, ist es selbstverständlich, dass er sich geringfügig vom tatsächlichen Durchschnitt (Bevölkerungsdurchschnitt) in der Bevölkerung unterscheidet.

Daher möchte ich den Mechanismus dieser "Abweichung" betrachten. 001_003_005.PNG Wenn nur der Stichprobenmittelwert verwendet wird, ist die Stichprobenvarianz immer kleiner als die wahre Varianz, die sie sein sollte. Um diese Vorspannung zu korrigieren, wird ** unverzerrte Dispersion **, dh "unverzerrte Dispersion", und ** unverzerrte Standardabweichung **, die die Quadratwurzel der Dispersion ist, verwendet.

Recommended Posts