Statistik mit Python

Insgesamt und durchschnittlich


numpy.sum(data) #gesamt
numpy.mean(data) #durchschnittlich

Maximum und Minimum und Median

numpy.amax(data)
numpy.amin(data)
numpy.median(data)

Verteilt

Ein Index, der angibt, "wie weit die Daten vom Durchschnittswert entfernt sind".

\sigma^2=\frac{1}{N}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 0)

Unvoreingenommene Dispersion

Die Stichprobenvarianz ist ein Wert, der durch weitere Berechnung der Varianz unter Verwendung des Stichprobenmittelwerts erhalten wird. Dieser Wert ist jedoch voreingenommen, um unterschätzt zu werden.
Daher wird derjenige ohne Vorspannung zur universellen Dispersion.

\sigma^2=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 1)

Im Folgenden wird eine unvoreingenommene Dispersion verwendet.

Standardabweichung

Die Quadratwurzel der Dispersion

\begin{align}
\sigma&=\sqrt{\sigma^2}\\
&=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-μ)^2
\end{align}
numpy.std(data, ddof=1)

Mitverteilt

--Wenn die Kovarianz größer als 0 ist
→ Wenn eine Variable einen großen Wert annimmt, erhöht sich auch die andere
→ Es besteht eine positive Korrelation. --Wenn die Kovarianz kleiner als 0 ist
→ Wenn eine Variable einen großen Wert annimmt, wird die andere kleiner
→ Es besteht eine negative Korrelation.

Cov(x,y)=\frac{1}{N}\sum_{i=1}^{n-1} (x_i-\mu_x)(y_i-\mu_y)

print(cov_data) スクリーンショット 2020-01-25 17.37.23.png

#Datenabruf
x = cov_data["x"]
y = cov_data["y"]
#Stichprobengröße
N = len(cov_data)
#Berechnung des Durchschnittswertes
mu_x = sp.mean(x)
mu_y = sp.mean(y)
#Mitverteilt
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)

Verteilte mitverteilte Matrix

Cov(x,y)=
\begin{bmatrix}
\sigma_x^2 & Cov(x,y) \\
Cov(x,y) & \sigma_y^2 
\end{bmatrix}
np.cov(x, y, ddof = 1)

Beim Abrufen eines Werts aus einer Matrix

hoge = np.cov(x, y, ddof = 1)
cov = hoge[1,0]

Pearson-Produktfaktorkorrelationskoeffizient

Die Kovarianz ist auf einen Maximalwert von 1 und einen Minimalwert von 1 standardisiert.

\rho_{xy}=\frac{Cov_{(x,y)}}{\sqrt{\sigma_x^2\sigma_y^2}}

#Berechnung der Varianz
sigma_2_x_sample = sp.var(x, ddof = 0)
sigma_2_y_sample = sp.var(y, ddof = 0)
#Korrelationskoeffizient
cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)

Korrelationsmatrix

Cov_{(x,y)}=
\begin{bmatrix}
1 & \rho_{xy} \\
\rho_{xy} & 1
\end{bmatrix}

numpy.corrcoef(x,y)

Standardisierung

Eine Konvertierung, die den Durchschnitt der Daten auf 0 und die Standardabweichung auf 1 setzt. Das heißt, der Durchschnittswert wird von jedem Daten abgezogen und durch die Standardabweichung geteilt.

standerd = (data - numpy.mean(data)) / numpy.std(data, ddof=1)

Wahrscheinlichkeitsdichte

Wahrscheinlichkeit in stetiger Variable [^ 1]. Wenn es sich um eine stetige Variable handelt, ist die Wahrscheinlichkeit eines bestimmten Werts immer 0. Dies liegt daran, dass einige Werte eine unendliche Anzahl von Werten nach dem Dezimalpunkt haben. Zum Beispiel kann eine Person nicht genau 160 Zentimeter groß sein. Die "Wahrscheinlichkeit einer Person zwischen 159 cm und 160 cm" kann jedoch berechnet werden. Diese Wahrscheinlichkeit ist die "Wahrscheinlichkeitsdichte". B. ist die Wahrscheinlichkeitsdichte von 0 bis zum Maximalwert 1.

vgl. Die Wahrscheinlichkeit in der diskreten Variablen [^ 2] ist die Wahrscheinlichkeit, dass viele Menschen in der Schule lernen. (P (x) = 1/4)

Insbesondere wenn die Wahrscheinlichkeit berücksichtigt wird, dass die Variable X, die einen reellen Wert annimmt, x <= X <= x + ⊿x annimmt, wird P (x) als Wahrscheinlichkeitsdichte von x bezeichnet, wenn ⊿x → 0 ist.

Probabilistische Variable

Bei der Berechnung der Wahrscheinlichkeit wird die zu berechnende Variable als Wahrscheinlichkeitsvariable bezeichnet. Angenommen, die Wahrscheinlichkeit, dass x = 2 ist, beträgt 1/3. Zu diesem Zeitpunkt ist 2 die Einrichtungsvariable.

Normalverteilungswahrscheinlichkeitsdichtefunktion

N(x|\mu, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}

Beispiel: Wenn die Wahrscheinlichkeitsvariable x = 3, Mittelwert = 4, Standardabweichung = 0,8

>>>x = 3
>>>mu = 4
>>>sigma = 0.8
>>>1 / (numpy.sqrt(2 * sp.pi * sigma**2)) * numpy.exp(- ((x - mu)**2) / (2 * sigma**2))
>>>0.228

Sie können dies einfach mit der folgenden Funktion tun.

>>>stats.norm.pdf(loc = 4, scale = 0.8, x = 3)
>>>0.228

Kumulative Verteilungsfunktion und geringere Wahrscheinlichkeit, Prozentpunkt

F(x)=P(X\leq x)

Eine Funktion ausgedrückt als. Das heißt, "eine Funktion, die die Wahrscheinlichkeit berechnet, dass der Wert kleiner als ein bestimmter Wert ist". Der hier erhaltene Wert wird als niedrigere Wahrscheinlichkeit bezeichnet. Außerdem wird x zu diesem Zeitpunkt als Prozentpunkt bezeichnet. Im Falle einer Normalverteilung kann sie durch die folgende Integralberechnung erhalten werden. Verwenden Sie auch die Funktion scipy.stats.hoge.cdf

P(X\leq x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
>>>import scipy as sp
>>>from scipy import stats
>>>stats.norm.cdf(loc = 4, scale = 0.8, x = 3) #loc ist der Durchschnitt, die Skala ist die Standardabweichung
>>>0.106

Funktion zum Finden der Prozentpunkte-ppf-Funktion

Prozentpunkt, an dem die niedrigere Wahrscheinlichkeit 2,5% beträgt

>>>stats.norm.ppf(loc = 4, scale = 0.8, q = 0.025)
>>>2.432

T-Wert- und T-Wert-Probenverteilung

t=\frac{\hat{\mu}-\mu}{\frac{\hat{\sigma}}{\sqrt{N}}}

Das ist,

t Wert=\frac{Stichprobenmittelwert-Mutter Durchschnitt}{Standart Fehler}

Wird sein. Die Verteilung der mehrfachen Wiederholung dieses Versuchs ist die t-Wert-Stichprobenverteilung.

t Verteilung

Die Stichprobenverteilung von t-Werten, wenn die Populationsverteilung eine Normalverteilung ist, wird als t-Verteilung bezeichnet.

t testen

Um zu überprüfen, ob der Durchschnittswert der Daten von einem bestimmten Wert abweicht. Die spezifische Methode des t-Tests hängt jedoch von der Entsprechung der Daten ab. Weitere Informationen finden Sie auf der folgenden Seite. Funktionen des Statistikmoduls

Pearson Rest

Es wird interpretiert als "gewöhnlicher Rest geteilt durch die Standardabweichung der Verteilung". Beispiel: Bei Binomialverteilung

\begin{align}
Pearson \quad residuals &= \frac{y-N\hat{p}}{\sqrt{N\hat{p}\quad(1-\hat{p}\quad)}}\\
&=\frac{y-\hat{p}}{\sqrt{\hat{p}\quad(1-\hat{p}\quad)}}
\end{align}
\\
\hat{p}\Quad repräsentiert die geschätzte Erfolgsrate.

Die Summe der Quadrate der Pearson-Residuen ist die Pearson-Kai-Quadrat-Statistik.

[^ 1]: Ein Wert, der einen Wert nach dem Dezimalpunkt annimmt und sich kontinuierlich ändert.
Beispiel: x cm ← 3 cm, 4,5 cm [^ 2]: Diejenigen, die nur ganze Zahlen nehmen.
Beispiel: Eins.

Recommended Posts

Statistik mit Python
FizzBuzz in Python3
Scraping mit Python
Scraping mit Python
Python mit Go
Twilio mit Python
In Python integrieren
Spielen Sie mit 2016-Python
AES256 mit Python
Getestet mit Python
Python beginnt mit ()
mit Syntax (Python)
1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)
Bingo mit Python
Zundokokiyoshi mit Python
Excel mit Python
Mikrocomputer mit Python
Mit Python besetzen
1. Mit Python 1-3 gelernte Statistiken. Berechnung verschiedener Statistiken (Statistiken)
Serielle Kommunikation mit Python
Zip, entpacken mit Python
Django 1.11 wurde mit Python3.6 gestartet
Python mit Eclipse + PyDev.
Socket-Kommunikation mit Python
Datenanalyse mit Python 2
Scraping in Python (Vorbereitung)
Versuchen Sie es mit Python.
Python lernen mit ChemTHEATER 03
Sequentielle Suche mit Python
"Objektorientiert" mit Python gelernt
Umgang mit Yaml mit Python
Löse AtCoder 167 mit Python
Serielle Kommunikation mit Python
[Python] Verwenden Sie JSON mit Python
Python lernen mit ChemTHEATER 05-1
Lerne Python mit ChemTHEATER
Führen Sie prepDE.py mit python3 aus
1.1 Erste Schritte mit Python
Tweets mit Python sammeln
Binarisierung mit OpenCV / Python
3. 3. KI-Programmierung mit Python
Kernel-Methode mit Python
Nicht blockierend mit Python + uWSGI
Scraping mit Python + PhantomJS
Tweets mit Python posten
Fahren Sie WebDriver mit Python
Verwenden Sie Mecab mit Python 3
Python für Feature Prediction Statistics
[Python] Mit CGIHTTPServer umleiten
Sprachanalyse mit Python
Denken Sie an Yaml mit Python
Kinesis mit Python betreiben
Erste Schritte mit Python
Verwenden Sie DynamoDB mit Python
Zundko Getter mit Python
Behandle Excel mit Python
Ohmsches Gesetz mit Python
Primzahlbeurteilung mit Python
Führen Sie Blender mit Python aus
Löse Mathe mit Python
Python ab Windows 7