Gestern erläuterte Statistiken und Intervallschätzungen als Voraussetzungen für den temporären Test. Lassen Sie uns noch einmal die Funktion NumPy bereinigen, mit der wir häufig Statistiken finden.
Angenommen, Sie haben die numerischen Vektoren X und Y. Beachten Sie, dass der Import von numpy als np und von scipy-Importstatistiken eine Voraussetzung ist.
Funktion | Erläuterung |
---|---|
np.max(X) | Finden Sie den Maximalwert von X. |
np.min(X) | Finden Sie den Mindestwert von X. |
np.mean(X) | Finden Sie den Durchschnittswert von X. |
np.median(X) | Finden Sie den Medianwert von X. |
np.var(X) | Finden Sie die Verteilung von X. |
np.std(X) | Finden Sie die Standardabweichung von X. |
stats.scoreatpercentile(X, 25) | Finden Sie den ersten Quadranten von X. |
stats.scoreatpercentile(X, 75) | Finden Sie den dritten Quadranten von X. |
np.dot(X, Y) | Finden Sie das Matrixprodukt von X und Y. |
np.outer(X, Y) | Finden Sie das direkte Produkt von X und Y. |
np.corrcoef(X, Y)[0,1] | Finden Sie den Korrelationskoeffizienten zwischen X und Y. |
Ein Hypothesentest ist ein Test der Signifikanz einer statistischen Hypothese. Da es sich um einen Hypothesentest handelt, müssen Sie eine Hypothese aufstellen. Wenn Sie beispielsweise eine grobe Hypothese aufstellen, können die folgenden Fälle berücksichtigt werden.
Hier ist die Definition der Wahrscheinlichkeitsverteilung.
Verteilung | Erläuterung |
---|---|
Binäre Bevölkerung | Binäre Verteilung Bi, wenn die Bevölkerungsverteilung die Bernoulli-Verteilung mit der Bevölkerung p ist(1,p), X1 + ... +Die Verteilung von Xn ist eine Binomialverteilung Bi(n,p)Folgen. |
Poisson Bevölkerung | Poissonverteilung mit Population λ(λ)Dann X1+ ... +Xn ist die Poisson-Verteilung Po(nλ)Folgen. |
Regelmäßige Bevölkerung | Bevölkerungsverteilung ist Bevölkerung u,Normalverteilung von σ N.(μ, σ^2)Dann X1+ ... +Xn ist eine Normalverteilung N.(nμ, nσ^2)Folgen |
Die häufig vorkommende Beschreibung der ** Normalverteilung ** lautet [Wikipedia description](http://en.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88 Es mag schneller sein, sich in% 86% E5% B8% 83) umzuschauen, aber die Definition lautet wie folgt.
f(x) = \frac 1 {\sqrt{2\pi\sigma}} exp \{-(x-\mu)^2/2{\sigma^2}\}, -\infty \lt x \lt \infty
Wenn die Wahrscheinlichkeitsverteilung X einer Normalverteilung folgt, ist der erwartete Wert wie folgt.
E(X) = \int_{-\infty}^{\infty}x(1/{\sqrt{2\pi\sigma}}) exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \mu
Daher ist die Verteilung gegeben durch
V(X) = \int_{-\infty}^{\infty}(x-\mu)^2(1/{\sqrt{2\pi\sigma}})exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \sigma^2
Daraus ergibt sich die Normalverteilung der mittleren μ-Dispersion σ ^ 2 wie folgt.
N(\mu, \sigma^2)
** Exponentialverteilung ** ist eine kontinuierliche Verteilung, die durch die folgende Wahrscheinlichkeitsdichtefunktion definiert wird.
f(x) = {\lambda}e^{-{\lambda}x} \\
jedoch\\
(x\ge0), 0 (x\lt0)
Diese Wahrscheinlichkeitsverteilung hat die Eigenschaft einer kontinuierlichen Wartezeitverteilung. Beispiele hierfür sind Wartezeit, Lebensdauer, Nutzungsdauer oder Jahre bis zur Katastrophe für ein System mit einer konstanten Ausfallrate.
Der erwartete Wert und die Varianz der Wahrscheinlichkeitsvariablen X, die dieser Verteilung folgt, können durch die folgenden Gleichungen berechnet werden.
E(X) = 1/{\lambda} \\
V(X) = 1/{\lambda^2}
Seltene Ereignisse, bei denen die Anzahl der Jahre bis zum Auftreten durch Exponentialverteilung verteilt wird, sind nicht unnatürlich, selbst wenn sie in naher Zukunft auftreten, selbst wenn die Wahrscheinlichkeit gering ist. Zum Beispiel ist ein großes Erdbeben eine leicht verständliche und vertraute Analogie.
Betrachten Sie eine Binomialverteilung wie Cointos. Die Binomialverteilung ist gleichmäßig, aber das Poissonsche Minderheitsgesetz gilt, wenn n groß und p klein ist (Wahrscheinlichkeit ist bei einer großen Anzahl von Beobachtungen selten). Zum Beispiel wäre es leicht zu verstehen, wie erfolgreich ein riesiges Produkt mit einer sehr geringen Wahrscheinlichkeit ist, einen Vertrag zu erreichen, beispielsweise ein Wal, der nur 3 von 1000 Treffern hat und der Rest ist aus. Der Satz lautet wie folgt.
P(X = k) = \frac {{\lambda}^xe^{-\lambda}} {k!}, \lambda \gt 0
Wenn die stochastische Variable X der Poisson-Verteilung folgt, sind die erwarteten Werte und Varianzen: Man kann sagen, dass die Poisson-Verteilung dadurch gekennzeichnet ist, dass der erwartete Wert und die Varianz gleich λ sind.
E(X) = \lambda \\
V(X) = \lambda
Neulich ist ebenfalls erschienen ** Der Chi-Quadrat-Test ** überprüft die Konsistenz der Varianz. Wenn die Nullhypothese nicht zurückgewiesen wird, lautet die Teststatistik Chi-Quadrat-Verteilung % B9% 97% E5% 88% 86% E5% B8% 83).
Wenn n zufällige Abtastungen aus der Normalverteilung N (μ, σ ^ 2) durchgeführt werden
Z = \sum_{i=1}^n \frac {(X_i - \mu)^2} {\sigma^2}
Z folgt einer Chi-Quadrat-Verteilung mit n Freiheitsgraden.
Angenommen, Sie beobachten eine Einkaufsstraße und 45 Frauen und 55 Männer werden beobachtet. Es gab eine Tendenz bei diesen 100 Personen, aber laut einer Umfrage könnte das Verhältnis von Männern zu Frauen tatsächlich fünfundfünfzig sein.
n = \frac {(45-50)^2} {50} + \frac
{(55-50)^2} {50} = 1
Zu diesem Zeitpunkt ist der Freiheitsgrad n 1. Die Chi-Quadrat-Verteilung mit 1 Freiheitsgrad beträgt 0,32, vorausgesetzt, Männer und Frauen sind in erster Linie gleich, daher wird sie nicht abgelehnt. Mit anderen Worten, es kann genug passieren.
** t-Test (Schüler-t-Test) ** testet den Mittelwert für kleine Proben. Unter Verwendung des Populationsmittelwerts u, des Stichprobenmittelwerts X und der Standardabtastabweichung s für eine Stichprobe der Größe n, die aus einer normalverteilten Population extrahiert wurde, kann T erhalten werden, wie in der folgenden Gleichung gezeigt.
T = \frac {\sqrt{n-1} (X - \mu)} s
Dann folgt T einer t-Verteilung mit n-1 Freiheitsgraden.
Lassen Sie uns den Unterschied zwischen dem Chi-Quadrat-Test und dem T-Test erklären und ein Beispiel geben, wie der Implementierungscode aussehen wird.
Der Chi-Quadrat-Test untersucht, ob für aggregierte Daten eine Beziehung zwischen Laden- und Produktverkäufen besteht, z.
Geschäft | Produkt A. | Produkt B. | gesamt |
---|---|---|---|
Speichern Sie X. | 435 | 165 | 600 |
Speichern Sie Y. | 265 | 135 | 400 |
gesamt | 700 | 300 | 1000 |
Der Chi-Quadrat-Test wurde [zuvor] durchgeführt (http://qiita.com/ynakayama/items/6b89cb451a73ae7a8990) und wird daher weggelassen.
Zum Beispiel prüft der t-Test, ob es für die folgenden Daten einen signifikanten Unterschied in den Ergebnissen von Japanisch und Mathematik gibt. (* Pseudodaten)
Anwesenheitsnummer | Landessprache | Mathematik |
---|---|---|
1 | 68 | 86 |
2 | 75 | 83 |
3 | 80 | 76 |
4 | 71 | 81 |
5 | 73 | 75 |
6 | 79 | 82 |
7 | 69 | 87 |
8 | 65 | 75 |
Wenn dies von t getestet wird, wird es so.
import numpy as np
import scipy as sp
from scipy import stats
X = [68 75 80 71 73 79 69 65]
Y = [86 83 76 81 75 82 87 75]
print(X)
print(Y)
t, p = stats.ttest_rel(X, Y)
print( "t Wert ist%(t)s" %locals() )
print( "Die Wahrscheinlichkeit ist%(p)s" %locals() )
if p < 0.05:
print("Es gibt einen signifikanten Unterschied")
else:
print("Es gibt keinen signifikanten Unterschied")
# [68 75 80 71 73 79 69 65]
# [86 83 76 81 75 82 87 75]
#t Wert ist-2.9923203754253302
#Die Wahrscheinlichkeit ist 0.0201600161737
#Es gibt einen signifikanten Unterschied
Wir fanden heraus, dass es einen signifikanten Unterschied zwischen japanischen und mathematischen Noten gab.
Was ist mit den nächsten wissenschaftlichen und sozialen Klassen?
Anwesenheitsnummer | Wissenschaft | Gesellschaft |
---|---|---|
1 | 85 | 80 |
2 | 69 | 76 |
3 | 77 | 84 |
4 | 77 | 93 |
5 | 75 | 76 |
6 | 74 | 80 |
7 | 87 | 79 |
8 | 69 | 84 |
Versuchen wir es mit demselben Code.
# [85 69 77 77 75 74 87 69]
# [80 76 84 93 76 80 79 84]
#t Wert ist-1.6077470858053244
#Die Wahrscheinlichkeit ist 0.151925908683
#Es gibt keinen signifikanten Unterschied
Es stellt sich heraus, dass diesmal kein signifikanter Unterschied besteht.
Recommended Posts