numpy.sum(data) #gesamt
numpy.mean(data) #durchschnittlich
numpy.amax(data)
numpy.amin(data)
numpy.median(data)
Ein Index, der angibt, "wie weit die Daten vom Durchschnittswert entfernt sind".
\sigma^2=\frac{1}{N}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 0)
Die Stichprobenvarianz ist ein Wert, der durch weitere Berechnung der Varianz unter Verwendung des Stichprobenmittelwerts erhalten wird. Dieser Wert ist jedoch voreingenommen, um unterschätzt zu werden.
Daher wird derjenige ohne Vorspannung zur universellen Dispersion.
\sigma^2=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-\mu)^2
numpy.var(data, ddof = 1)
Im Folgenden wird eine unvoreingenommene Dispersion verwendet.
Die Quadratwurzel der Dispersion
\begin{align}
\sigma&=\sqrt{\sigma^2}\\
&=\frac{1}{N-1}\sum_{i=1}^{n} (x_i-μ)^2
\end{align}
numpy.std(data, ddof=1)
--Wenn die Kovarianz größer als 0 ist
→ Wenn eine Variable einen großen Wert annimmt, erhöht sich auch die andere
→ Es besteht eine positive Korrelation.
--Wenn die Kovarianz kleiner als 0 ist
→ Wenn eine Variable einen großen Wert annimmt, wird die andere kleiner
→ Es besteht eine negative Korrelation.
Cov(x,y)=\frac{1}{N}\sum_{i=1}^{n-1} (x_i-\mu_x)(y_i-\mu_y)
print(cov_data)
#Datenabruf
x = cov_data["x"]
y = cov_data["y"]
#Stichprobengröße
N = len(cov_data)
#Berechnung des Durchschnittswertes
mu_x = sp.mean(x)
mu_y = sp.mean(y)
#Mitverteilt
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
Cov(x,y)=
\begin{bmatrix}
\sigma_x^2 & Cov(x,y) \\
Cov(x,y) & \sigma_y^2
\end{bmatrix}
np.cov(x, y, ddof = 1)
hoge = np.cov(x, y, ddof = 1)
cov = hoge[1,0]
Die Kovarianz ist auf einen Maximalwert von 1 und einen Minimalwert von 1 standardisiert.
\rho_{xy}=\frac{Cov_{(x,y)}}{\sqrt{\sigma_x^2\sigma_y^2}}
#Berechnung der Varianz
sigma_2_x_sample = sp.var(x, ddof = 0)
sigma_2_y_sample = sp.var(y, ddof = 0)
#Korrelationskoeffizient
cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)
Cov_{(x,y)}=
\begin{bmatrix}
1 & \rho_{xy} \\
\rho_{xy} & 1
\end{bmatrix}
numpy.corrcoef(x,y)
Eine Konvertierung, die den Durchschnitt der Daten auf 0 und die Standardabweichung auf 1 setzt. Das heißt, der Durchschnittswert wird von jedem Daten abgezogen und durch die Standardabweichung geteilt.
standerd = (data - numpy.mean(data)) / numpy.std(data, ddof=1)
Wahrscheinlichkeit in stetiger Variable [^ 1]. Wenn es sich um eine stetige Variable handelt, ist die Wahrscheinlichkeit eines bestimmten Werts immer 0. Dies liegt daran, dass einige Werte eine unendliche Anzahl von Werten nach dem Dezimalpunkt haben. Zum Beispiel kann eine Person nicht genau 160 Zentimeter groß sein. Die "Wahrscheinlichkeit einer Person zwischen 159 cm und 160 cm" kann jedoch berechnet werden. Diese Wahrscheinlichkeit ist die "Wahrscheinlichkeitsdichte". B. ist die Wahrscheinlichkeitsdichte von 0 bis zum Maximalwert 1.
vgl. Die Wahrscheinlichkeit in der diskreten Variablen [^ 2] ist die Wahrscheinlichkeit, dass viele Menschen in der Schule lernen. (P (x) = 1/4)
Insbesondere wenn die Wahrscheinlichkeit berücksichtigt wird, dass die Variable X, die einen reellen Wert annimmt, x <= X <= x + ⊿x annimmt, wird P (x) als Wahrscheinlichkeitsdichte von x bezeichnet, wenn ⊿x → 0 ist.
Bei der Berechnung der Wahrscheinlichkeit wird die zu berechnende Variable als Wahrscheinlichkeitsvariable bezeichnet. Angenommen, die Wahrscheinlichkeit, dass x = 2 ist, beträgt 1/3. Zu diesem Zeitpunkt ist 2 die Einrichtungsvariable.
N(x|\mu, \sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}
Beispiel: Wenn die Wahrscheinlichkeitsvariable x = 3, Mittelwert = 4, Standardabweichung = 0,8
>>>x = 3
>>>mu = 4
>>>sigma = 0.8
>>>1 / (numpy.sqrt(2 * sp.pi * sigma**2)) * numpy.exp(- ((x - mu)**2) / (2 * sigma**2))
>>>0.228
Sie können dies einfach mit der folgenden Funktion tun.
>>>stats.norm.pdf(loc = 4, scale = 0.8, x = 3)
>>>0.228
F(x)=P(X\leq x)
Eine Funktion ausgedrückt als. Das heißt, "eine Funktion, die die Wahrscheinlichkeit berechnet, dass der Wert kleiner als ein bestimmter Wert ist". Der hier erhaltene Wert wird als niedrigere Wahrscheinlichkeit bezeichnet. Außerdem wird x zu diesem Zeitpunkt als Prozentpunkt bezeichnet. Im Falle einer Normalverteilung kann sie durch die folgende Integralberechnung erhalten werden. Verwenden Sie auch die Funktion scipy.stats.hoge.cdf
P(X\leq x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-{\frac{(x-\mu)^2}{2\sigma^2}}}dx
>>>import scipy as sp
>>>from scipy import stats
>>>stats.norm.cdf(loc = 4, scale = 0.8, x = 3) #loc ist der Durchschnitt, die Skala ist die Standardabweichung
>>>0.106
Prozentpunkt, an dem die niedrigere Wahrscheinlichkeit 2,5% beträgt
>>>stats.norm.ppf(loc = 4, scale = 0.8, q = 0.025)
>>>2.432
t=\frac{\hat{\mu}-\mu}{\frac{\hat{\sigma}}{\sqrt{N}}}
Das ist,
t Wert=\frac{Stichprobenmittelwert-Mutter Durchschnitt}{Standart Fehler}
Wird sein. Die Verteilung der mehrfachen Wiederholung dieses Versuchs ist die t-Wert-Stichprobenverteilung.
Die Stichprobenverteilung von t-Werten, wenn die Populationsverteilung eine Normalverteilung ist, wird als t-Verteilung bezeichnet.
Um zu überprüfen, ob der Durchschnittswert der Daten von einem bestimmten Wert abweicht. Die spezifische Methode des t-Tests hängt jedoch von der Entsprechung der Daten ab. Weitere Informationen finden Sie auf der folgenden Seite. Funktionen des Statistikmoduls
Es wird interpretiert als "gewöhnlicher Rest geteilt durch die Standardabweichung der Verteilung". Beispiel: Bei Binomialverteilung
\begin{align}
Pearson \quad residuals &= \frac{y-N\hat{p}}{\sqrt{N\hat{p}\quad(1-\hat{p}\quad)}}\\
&=\frac{y-\hat{p}}{\sqrt{\hat{p}\quad(1-\hat{p}\quad)}}
\end{align}
\\
\hat{p}\Quad repräsentiert die geschätzte Erfolgsrate.
Die Summe der Quadrate der Pearson-Residuen ist die Pearson-Kai-Quadrat-Statistik.
[^ 1]: Ein Wert, der einen Wert nach dem Dezimalpunkt annimmt und sich kontinuierlich ändert.
Beispiel: x cm ← 3 cm, 4,5 cm
[^ 2]: Diejenigen, die nur ganze Zahlen nehmen.
Beispiel: Eins.
Recommended Posts