Insgesamt und durchschnittlich


numpy.sum(data) #gesamt
numpy.mean(data) #durchschnittlich

Maximum und Minimum und Median

numpy.amax(data)
numpy.amin(data)
numpy.median(data)

Verteilt

Ein Index, der angibt, "wie weit die Daten vom Durchschnittswert entfernt sind".

\sigma^2=\frac{1}{N}\sum_{i=1}^{n} (x_i-\mu)^2

numpy.var(data, ddof = 0)

Unvoreingenommene Dispersion

Die Stichprobenvarianz ist ein Wert, der durch weitere Berechnung der Varianz unter Verwendung des Stichprobenmittelwerts erhalten wird. Dieser Wert ist jedoch voreingenommen, um unterschätzt zu werden.
Daher wird derjenige ohne Vorspannung zur universellen Dispersion.

\sigma^2=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-\mu)^2

numpy.var(data, ddof = 1)

Im Folgenden wird eine unvoreingenommene Dispersion verwendet.

Standardabweichung

Die Quadratwurzel der Dispersion

\begin{align}
\sigma&=\sqrt{\sigma^2}\\
&=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-μ)^2
\end{align}

numpy.std(data, ddof=1)

Mitverteilt

--Wenn die Kovarianz größer als 0 ist
→ Wenn eine Variable einen großen Wert annimmt, erhöht sich auch die andere
→ Es besteht eine positive Korrelation. --Wenn die Kovarianz kleiner als 0 ist
→ Wenn eine Variable einen großen Wert annimmt, wird die andere kleiner
→ Es besteht eine negative Korrelation.

Cov(x,y)=\frac{1}{N}\sum_{i=1}^{n-1} (x_i-\mu_x)(y_i-\mu_y)

print(cov_data) スクリーンショット 2020-01-25 17.37.23.png

#Datenabruf
x = cov_data["x"]
y = cov_data["y"]
#Stichprobengröße
N = len(cov_data)
#Berechnung des Durchschnittswertes
mu_x = sp.mean(x)
mu_y = sp.mean(y)
#Mitverteilt
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)

Verteilte mitverteilte Matrix

Cov(x,y)=
\begin{bmatrix}
\sigma_x^2 & Cov(x,y) \\
Cov(x,y) & \sigma_y^2 
\end{bmatrix}

np.cov(x, y, ddof = 1)

Beim Abrufen eines Werts aus einer Matrix

hoge = np.cov(x, y, ddof = 1)
cov = hoge[1,0]

Pearson-Produktfaktorkorrelationskoeffizient

Die Kovarianz ist auf einen Maximalwert von 1 und einen Minimalwert von 1 standardisiert.

\rho_{xy}=\frac{Cov_{(x,y)}}{\sqrt{\sigma_x^2\sigma_y^2}}


#Berechnung der Varianz
sigma_2_x_sample = sp.var(x, ddof = 0)
sigma_2_y_sample = sp.var(y, ddof = 0)
#Korrelationskoeffizient
cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)

Korrelationsmatrix

Cov_{(x,y)}=
\begin{bmatrix}
1 & \rho_{xy} \\
\rho_{xy} & 1
\end{bmatrix}


numpy.corrcoef(x,y)

Standardisierung

Eine Konvertierung, die den Durchschnitt der Daten auf 0 und die Standardabweichung auf 1 setzt. Das heißt, der Durchschnittswert wird von jedem Daten abgezogen und durch die Standardabweichung geteilt.

standerd = (data - numpy.mean(data)) / numpy.std(data, ddof=1)

Wahrscheinlichkeitsdichte

Wahrscheinlichkeit in stetiger Variable [^ 1]. Wenn es sich um eine stetige Variable handelt, ist die Wahrscheinlichkeit eines bestimmten Werts immer 0. Dies liegt daran, dass einige Werte eine unendliche Anzahl von Werten nach dem Dezimalpunkt haben. Zum Beispiel kann eine Person nicht genau 160 Zentimeter groß sein. Die "Wahrscheinlichkeit einer Person zwischen 159 cm und 160 cm" kann jedoch berechnet werden. Diese Wahrscheinlichkeit ist die "Wahrscheinlichkeitsdichte". B. ist die Wahrscheinlichkeitsdichte von 0 bis zum Maximalwert 1.

vgl. Die Wahrscheinlichkeit in der diskreten Variablen [^ 2] ist die Wahrscheinlichkeit, dass viele Menschen in der Schule lernen. (P (x) = 1/4)

Insbesondere wenn die Wahrscheinlichkeit berücksichtigt wird, dass die Variable X, die einen reellen Wert annimmt, x <= X <= x + ⊿x annimmt, wird P (x) als Wahrscheinlichkeitsdichte von x bezeichnet, wenn ⊿x → 0 ist.

Probabilistische Variable

Bei der Berechnung der Wahrscheinlichkeit wird die zu berechnende Variable als Wahrscheinlichkeitsvariable bezeichnet. Angenommen, die Wahrscheinlichkeit, dass x = 2 ist, beträgt 1/3. Zu diesem Zeitpunkt ist 2 die Einrichtungsvariable.

Normalverteilungswahrscheinlichkeitsdichtefunktion

N(x|\mu, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}

Beispiel: Wenn die Wahrscheinlichkeitsvariable x = 3, Mittelwert = 4, Standardabweichung = 0,8

>>>x = 3
>>>mu = 4
>>>sigma = 0.8
>>>1 / (numpy.sqrt(2 * sp.pi * sigma**2)) * numpy.exp(- ((x - mu)**2) / (2 * sigma**2))
>>>0.228

Sie können dies einfach mit der folgenden Funktion tun.

>>>stats.norm.pdf(loc = 4, scale = 0.8, x = 3)
>>>0.228

Kumulative Verteilungsfunktion und geringere Wahrscheinlichkeit, Prozentpunkt

F(x)=P(X\leq x)

Eine Funktion ausgedrückt als. Das heißt, "eine Funktion, die die Wahrscheinlichkeit berechnet, dass der Wert kleiner als ein bestimmter Wert ist". Der hier erhaltene Wert wird als niedrigere Wahrscheinlichkeit bezeichnet. Außerdem wird x zu diesem Zeitpunkt als Prozentpunkt bezeichnet. Im Falle einer Normalverteilung kann sie durch die folgende Integralberechnung erhalten werden. Verwenden Sie auch die Funktion scipy.stats.hoge.cdf

P(X\leq x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx

>>>import scipy as sp
>>>from scipy import stats
>>>stats.norm.cdf(loc = 4, scale = 0.8, x = 3) #loc ist der Durchschnitt, die Skala ist die Standardabweichung
>>>0.106

Funktion zum Finden der Prozentpunkte-ppf-Funktion

Prozentpunkt, an dem die niedrigere Wahrscheinlichkeit 2,5% beträgt

>>>stats.norm.ppf(loc = 4, scale = 0.8, q = 0.025)
>>>2.432

T-Wert- und T-Wert-Probenverteilung

t=\frac{\hat{\mu}-\mu}{\frac{\hat{\sigma}}{\sqrt{N}}}

Das ist,

t Wert=\frac{Stichprobenmittelwert-Mutter Durchschnitt}{Standart Fehler}

Wird sein. Die Verteilung der mehrfachen Wiederholung dieses Versuchs ist die t-Wert-Stichprobenverteilung.

t Verteilung

Die Stichprobenverteilung von t-Werten, wenn die Populationsverteilung eine Normalverteilung ist, wird als t-Verteilung bezeichnet.

t testen

Um zu überprüfen, ob der Durchschnittswert der Daten von einem bestimmten Wert abweicht. Die spezifische Methode des t-Tests hängt jedoch von der Entsprechung der Daten ab. Weitere Informationen finden Sie auf der folgenden Seite. Funktionen des Statistikmoduls

Pearson Rest

Es wird interpretiert als "gewöhnlicher Rest geteilt durch die Standardabweichung der Verteilung". Beispiel: Bei Binomialverteilung

Wenn p = 0,5 ist, wird es 0 oder 1, aber es bedeutet, dass es die Hälfte ist, so dass die Wahrscheinlichkeit des Ratens gering ist. Die Abweichung zu diesem Zeitpunkt wird als "kleine Abweichung" im Pearson-Residuum erkannt. --Wenn p = 0,9, sollte eine hohe Wahrscheinlichkeit bestehen, dass die Vermutung korrekt ist. Wenn die Vermutung zu diesem Zeitpunkt falsch ist, wird sie als "große Abweichung" im Pearson-Residuum erkannt.

\begin{align}
Pearson \quad residuals &= \frac{y-N\hat{p}}{\sqrt{N\hat{p}\quad(1-\hat{p}\quad)}}\\
&=\frac{y-\hat{p}}{\sqrt{\hat{p}\quad(1-\hat{p}\quad)}}
\end{align}
\\
\hat{p}\Quad repräsentiert die geschätzte Erfolgsrate.

Die Summe der Quadrate der Pearson-Residuen ist die Pearson-Kai-Quadrat-Statistik.

[^ 1]: Ein Wert, der einen Wert nach dem Dezimalpunkt annimmt und sich kontinuierlich ändert.
Beispiel: x cm ← 3 cm, 4,5 cm [^ 2]: Diejenigen, die nur ganze Zahlen nehmen.
Beispiel: Eins.

Statistik mit Python