[PYTHON] Hypothesentest und Wahrscheinlichkeitsverteilung

Gestern erläuterte Statistiken und Intervallschätzungen als Voraussetzungen für den temporären Test. Lassen Sie uns noch einmal die Funktion NumPy bereinigen, mit der wir häufig Statistiken finden.

Häufig verwendete grundlegende statistische Berechnungsfunktion

Angenommen, Sie haben die numerischen Vektoren X und Y. Beachten Sie, dass der Import von numpy als np und von scipy-Importstatistiken eine Voraussetzung ist.

Funktion Erläuterung
np.max(X) Finden Sie den Maximalwert von X.
np.min(X) Finden Sie den Mindestwert von X.
np.mean(X) Finden Sie den Durchschnittswert von X.
np.median(X) Finden Sie den Medianwert von X.
np.var(X) Finden Sie die Verteilung von X.
np.std(X) Finden Sie die Standardabweichung von X.
stats.scoreatpercentile(X, 25) Finden Sie den ersten Quadranten von X.
stats.scoreatpercentile(X, 75) Finden Sie den dritten Quadranten von X.
np.dot(X, Y) Finden Sie das Matrixprodukt von X und Y.
np.outer(X, Y) Finden Sie das direkte Produkt von X und Y.
np.corrcoef(X, Y)[0,1] Finden Sie den Korrelationskoeffizienten zwischen X und Y.

Hypothesentest und Wahrscheinlichkeitsverteilung

Ein Hypothesentest ist ein Test der Signifikanz einer statistischen Hypothese. Da es sich um einen Hypothesentest handelt, müssen Sie eine Hypothese aufstellen. Wenn Sie beispielsweise eine grobe Hypothese aufstellen, können die folgenden Fälle berücksichtigt werden.

Beispiel eines Falls, um eine Hypothese aufzustellen

  1. Der Würfelwurf sollte 1/6 sein, aber es scheint, dass die Frequenz von 6 hoch ist (ich denke, es ist verrückt).
  2. Einen Monat nach dem Streben nach einer Diät nahm mein Gewicht von 75 kg auf 70 kg ab. Das Gewicht schwankt jedoch aufgrund von Messfehlern und täglichen Schwankungen. Wenn wir einer Normalverteilung mit einer Standardabweichung von 1 kg einschließlich dieser Fehler und Schwankungen folgen, ist diese dünn?
  3. Wir untersuchten die Anzahl der Pestfälle in zwei Bereichen A und B, bei denen es sich um medizinische Diagnosen handelt. In 10 Studien wurden 52 Patienten in A und 28 in B gefunden. Auf den ersten Blick scheint das Gebiet A eine höhere Prävalenz von Epidemien zu haben, aber die Bevölkerung des Gebiets ist unterschiedlich. Wenn wir jetzt wissen, dass die Häufigkeit des Auftretens von Patienten der Poisson-Verteilung folgt, können wir das wirklich sagen?
  4. Frauen in den Dreißigern kaufen doppelt so viele Produkte wie Frauen in den Zwanzigern. Eine Umfrage unter 100 Personen, um dies zu bestätigen, ergab, dass 52 Frauen in den Dreißigern, 30 Frauen in den Zwanzigern und 15 in anderen Altersgruppen waren. Als jedoch die Anzahl der Befragten auf 150, 300 und 500 erhöht wurde, war das Verhältnis unterschiedlich. Wie soll ich in einem solchen Fall eine Entscheidung treffen?

Stichprobenverteilung von Statistiken

Hier ist die Definition der Wahrscheinlichkeitsverteilung.

Verteilung Erläuterung
Binäre Bevölkerung Binäre Verteilung Bi, wenn die Bevölkerungsverteilung die Bernoulli-Verteilung mit der Bevölkerung p ist(1,p), X1 + ... +Die Verteilung von Xn ist eine Binomialverteilung Bi(n,p)Folgen.
Poisson Bevölkerung Poissonverteilung mit Population λ(λ)Dann X1+ ... +Xn ist die Poisson-Verteilung Po(nλ)Folgen.
Regelmäßige Bevölkerung Bevölkerungsverteilung ist Bevölkerung u,Normalverteilung von σ N.(μ, σ^2)Dann X1+ ... +Xn ist eine Normalverteilung N.(nμ, nσ^2)Folgen

Hauptkontinuierliche Wahrscheinlichkeitsverteilung

Normalverteilung

Die häufig vorkommende Beschreibung der ** Normalverteilung ** lautet [Wikipedia description](http://en.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88 Es mag schneller sein, sich in% 86% E5% B8% 83) umzuschauen, aber die Definition lautet wie folgt.

f(x) = \frac 1 {\sqrt{2\pi\sigma}} exp \{-(x-\mu)^2/2{\sigma^2}\}, -\infty \lt x \lt \infty

Wenn die Wahrscheinlichkeitsverteilung X einer Normalverteilung folgt, ist der erwartete Wert wie folgt.

E(X) = \int_{-\infty}^{\infty}x(1/{\sqrt{2\pi\sigma}}) exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \mu

Daher ist die Verteilung gegeben durch

V(X) = \int_{-\infty}^{\infty}(x-\mu)^2(1/{\sqrt{2\pi\sigma}})exp \{-(x-\mu)^2/2{\sigma^2}\}{dx} = \sigma^2

Daraus ergibt sich die Normalverteilung der mittleren μ-Dispersion σ ^ 2 wie folgt.

N(\mu, \sigma^2)

Exponentialverteilung

** Exponentialverteilung ** ist eine kontinuierliche Verteilung, die durch die folgende Wahrscheinlichkeitsdichtefunktion definiert wird.

f(x) = {\lambda}e^{-{\lambda}x} \\
jedoch\\
(x\ge0), 0 (x\lt0)

Diese Wahrscheinlichkeitsverteilung hat die Eigenschaft einer kontinuierlichen Wartezeitverteilung. Beispiele hierfür sind Wartezeit, Lebensdauer, Nutzungsdauer oder Jahre bis zur Katastrophe für ein System mit einer konstanten Ausfallrate.

Der erwartete Wert und die Varianz der Wahrscheinlichkeitsvariablen X, die dieser Verteilung folgt, können durch die folgenden Gleichungen berechnet werden.

E(X) = 1/{\lambda} \\
V(X) = 1/{\lambda^2}

Seltene Ereignisse, bei denen die Anzahl der Jahre bis zum Auftreten durch Exponentialverteilung verteilt wird, sind nicht unnatürlich, selbst wenn sie in naher Zukunft auftreten, selbst wenn die Wahrscheinlichkeit gering ist. Zum Beispiel ist ein großes Erdbeben eine leicht verständliche und vertraute Analogie.

Wichtige diskrete Wahrscheinlichkeitsverteilungen

Poisson-Verteilung

Betrachten Sie eine Binomialverteilung wie Cointos. Die Binomialverteilung ist gleichmäßig, aber das Poissonsche Minderheitsgesetz gilt, wenn n groß und p klein ist (Wahrscheinlichkeit ist bei einer großen Anzahl von Beobachtungen selten). Zum Beispiel wäre es leicht zu verstehen, wie erfolgreich ein riesiges Produkt mit einer sehr geringen Wahrscheinlichkeit ist, einen Vertrag zu erreichen, beispielsweise ein Wal, der nur 3 von 1000 Treffern hat und der Rest ist aus. Der Satz lautet wie folgt.

P(X = k) = \frac {{\lambda}^xe^{-\lambda}} {k!}, \lambda \gt 0

Wenn die stochastische Variable X der Poisson-Verteilung folgt, sind die erwarteten Werte und Varianzen: Man kann sagen, dass die Poisson-Verteilung dadurch gekennzeichnet ist, dass der erwartete Wert und die Varianz gleich λ sind.

E(X) = \lambda \\
V(X) = \lambda

Verschiedene Hypothesentests

Chi-Quadrat-Test

Neulich ist ebenfalls erschienen ** Der Chi-Quadrat-Test ** überprüft die Konsistenz der Varianz. Wenn die Nullhypothese nicht zurückgewiesen wird, lautet die Teststatistik Chi-Quadrat-Verteilung % B9% 97% E5% 88% 86% E5% B8% 83).

Wenn n zufällige Abtastungen aus der Normalverteilung N (μ, σ ^ 2) durchgeführt werden

Z = \sum_{i=1}^n \frac {(X_i - \mu)^2} {\sigma^2}

Z folgt einer Chi-Quadrat-Verteilung mit n Freiheitsgraden.

Angenommen, Sie beobachten eine Einkaufsstraße und 45 Frauen und 55 Männer werden beobachtet. Es gab eine Tendenz bei diesen 100 Personen, aber laut einer Umfrage könnte das Verhältnis von Männern zu Frauen tatsächlich fünfundfünfzig sein.

n = \frac {(45-50)^2} {50} + \frac 
{(55-50)^2} {50} = 1

Zu diesem Zeitpunkt ist der Freiheitsgrad n 1. Die Chi-Quadrat-Verteilung mit 1 Freiheitsgrad beträgt 0,32, vorausgesetzt, Männer und Frauen sind in erster Linie gleich, daher wird sie nicht abgelehnt. Mit anderen Worten, es kann genug passieren.

t testen

** t-Test (Schüler-t-Test) ** testet den Mittelwert für kleine Proben. Unter Verwendung des Populationsmittelwerts u, des Stichprobenmittelwerts X und der Standardabtastabweichung s für eine Stichprobe der Größe n, die aus einer normalverteilten Population extrahiert wurde, kann T erhalten werden, wie in der folgenden Gleichung gezeigt.

T = \frac {\sqrt{n-1} (X - \mu)} s

Dann folgt T einer t-Verteilung mit n-1 Freiheitsgraden.

Praxis des Hypothesentests

Lassen Sie uns den Unterschied zwischen dem Chi-Quadrat-Test und dem T-Test erklären und ein Beispiel geben, wie der Implementierungscode aussehen wird.

Chi-Quadrat-Test

Der Chi-Quadrat-Test untersucht, ob für aggregierte Daten eine Beziehung zwischen Laden- und Produktverkäufen besteht, z.

Geschäft Produkt A. Produkt B. gesamt
Speichern Sie X. 435 165 600
Speichern Sie Y. 265 135 400
gesamt 700 300 1000

Der Chi-Quadrat-Test wurde [zuvor] durchgeführt (http://qiita.com/ynakayama/items/6b89cb451a73ae7a8990) und wird daher weggelassen.

t testen

Zum Beispiel prüft der t-Test, ob es für die folgenden Daten einen signifikanten Unterschied in den Ergebnissen von Japanisch und Mathematik gibt. (* Pseudodaten)

Anwesenheitsnummer Landessprache Mathematik
1 68 86
2 75 83
3 80 76
4 71 81
5 73 75
6 79 82
7 69 87
8 65 75

Wenn dies von t getestet wird, wird es so.

import numpy as np
import scipy as sp
from scipy import stats

X = [68 75 80 71 73 79 69 65]
Y = [86 83 76 81 75 82 87 75]

print(X)
print(Y)

t, p = stats.ttest_rel(X, Y)

print( "t Wert ist%(t)s" %locals() )
print( "Die Wahrscheinlichkeit ist%(p)s" %locals() )

if p < 0.05:
    print("Es gibt einen signifikanten Unterschied")
else:
    print("Es gibt keinen signifikanten Unterschied")

# [68 75 80 71 73 79 69 65]
# [86 83 76 81 75 82 87 75]
#t Wert ist-2.9923203754253302
#Die Wahrscheinlichkeit ist 0.0201600161737
#Es gibt einen signifikanten Unterschied

Wir fanden heraus, dass es einen signifikanten Unterschied zwischen japanischen und mathematischen Noten gab.

Was ist mit den nächsten wissenschaftlichen und sozialen Klassen?

Anwesenheitsnummer Wissenschaft Gesellschaft
1 85 80
2 69 76
3 77 84
4 77 93
5 75 76
6 74 80
7 87 79
8 69 84

Versuchen wir es mit demselben Code.

# [85 69 77 77 75 74 87 69]
# [80 76 84 93 76 80 79 84]
#t Wert ist-1.6077470858053244
#Die Wahrscheinlichkeit ist 0.151925908683
#Es gibt keinen signifikanten Unterschied

Es stellt sich heraus, dass diesmal kein signifikanter Unterschied besteht.

Recommended Posts

Hypothesentest und Wahrscheinlichkeitsverteilung
Verteilung und Test
[Statistische Teststufe 2] Diskrete Wahrscheinlichkeitsverteilung
Post-Test
Verteilung und Test
Python-Debug- und Testmodul
Hypothesentest und Wahrscheinlichkeitsverteilung
In Python ② erlernte statistische Wahrscheinlichkeitsverteilung für Testgrad 2
Konzept des Bayes'schen Denkens (2) ... Bayes'sche Schätzung und Wahrscheinlichkeitsverteilung
In Python ① erlernte statistische Wahrscheinlichkeitsverteilung für Testgrad 2
Bayesian Statistics Hypothesis Test
OS- und Linux-Distribution
Gemischte Gaußsche Verteilung und logsumexp
Hypothesentest zur Produktverbesserung
Grundlegende Statistik und Gaußsche Verteilung
Python-Debug- und Testmodul
Testen Sie die Eignung der Verteilung
PRML Kapitel 2 Wahrscheinlichkeitsverteilung Nichtparametrische Methode
[Einführung in Datenwissenschaftler] Grundlagen der Wahrscheinlichkeit und Statistik ♬ Wahrscheinlichkeits- / Wahrscheinlichkeitsvariable und Wahrscheinlichkeitsverteilung
Text Mining: Wahrscheinlichkeitsdichteverteilung auf Hypersphäre und Textclustering mit KMeans