[PYTHON] Einführung in das Testen statistischer Hypothesen mit Statistikmodellen

Haben Sie jemals gedacht, Sie hätten einen statistischen Test gemeistert und wissen nicht, was Sie tun sollen, wenn Sie sich für die Verwendung entscheiden? Statistische Tests haben höhere Hürden als Sie vielleicht denken. Dies gilt auch für diejenigen, die immer Statistiken verwenden. Wenn Sie es eine Weile nicht benutzen, werden Sie es nicht sofort wissen.

Deshalb Basic Econometrics by Damodar N. Gujarati Ich beschloss, einen Teil von zu übersetzen. Wir freuen uns darauf, Ihnen zu helfen. Darüber hinaus werden wir am 16. Juni 2020 eine kostenlose Online-Studiensitzung (lineare Regression) abhalten (https://connpass.com/event/177556/edit/). Wir hoffen, dass Sie sich uns anschließen.

Statistisches Denken: Hypothesentest

Schätzungen und Hypothesentests bilden zwei Säulen des klassischen statistischen Denkens. Nachdem wir das Problem der Schätzung betrachtet haben, werden wir kurz das Problem des Testens statistischer Hypothesen betrachten.

Das Problem des Hypothesentests wird wie folgt ausgedrückt. Angenommen, Sie haben ein X mit einer bekannten Wahrscheinlichkeitsdichtefunktion f (x; θ). Wobei θ ein Verteilungsparameter ist. Erhalten Sie $ \ hat {\ theta} $ durch Punktschätzung aus einer zufällig erhaltenen Stichprobe mit einer Stichprobengröße von n. Das Problem entsteht, weil das wahre θ selten bekannt ist. Die Schätzung $ \ hat {\ theta} $ ist mit einigen hypothetischen Werten von θ "kompatibel", wie z. B. θ = θ $ ^ \ * $. Zum Beispiel. Ist $ θ ^ \ * $ eine bestimmte Zahl für θ? Mit anderen Worten, kann die Probe aus der Wahrscheinlichkeitsdichtefunktion f (x; θ) = $ θ ^ \ * $ erhalten werden?

In der Hypothesentestsprache wird $ θ = \ theta ^ \ * $ als Nullhypothese bezeichnet und üblicherweise durch H0 dargestellt. Die Nullhypothese wird gegen die durch H1 dargestellte Alternativhypothese getestet. Zum Beispiel könnte es θ $ \ ne θ ^ \ * $ sein. Die Nullhypothese und die Alternativhypothese sind entweder einfache Hypothesen oder zusammengesetzte Hypothesen. Wenn Sie die Parameterwerte der Verteilung angeben, spricht man von einer einfachen Hypothese. Ansonsten spricht man von einer zusammengesetzten Hypothese. Daher ist es X bis N (µ, $ \ sigma ^ 2 $). H0: µ = 15 und σ = 2 Wenn ja, ist das eine einfache Hypothese. Auf der anderen Seite H0: µ = 15 und σ> 2 Ist eine zusammengesetzte Hypothese, da kein Wert für σ angegeben ist.

Um die Nullhypothese zu testen, dh um ihre Gültigkeit zu testen, verwenden wir die Informationen in der Stichprobe, um eine sogenannte Teststatistik zu erhalten. Oft ist diese Teststatistik eine Punktschätzung für einen unbekannten Parameter. Suchen Sie dann eine Stichprobe oder Wahrscheinlichkeitsverteilung der Teststatistik und testen Sie die Nullhypothese mithilfe eines Konfidenzintervalls oder eines signifikanten Differenztests. Als nächstes werde ich das Verfahren erklären.

Um diese Idee zu verstehen, kehren wir zu Beispiel 23 der männlichen Größe (X) in der Bevölkerung zurück. Xi〜N(µ、\sigma^2)= N(µ、2.5$^2$) \bar{X}= 67 n = 100 Wird besorgt. H0:µ = µ* = 69 H1:µ \ne 69 Angenommen. Das Problem ist: Kann die Stichprobe der Teststatistik $ \ bar {X} $ = 67 aus einer Population mit einem Mittelwert von 69 stammen? Wenn $ \ bar {X} $ nahe genug an µ * liegt, wird die Nullhypothese intuitiv nicht verworfen, andernfalls wird die alternative Hypothese unterstützt und die Nullhypothese abgelehnt. .. Aber wie stellen Sie fest, dass $ \ bar {X} $ nahe genug an µ * liegt? Es gibt zwei Methoden: (1) Konfidenzintervall (2) Signifikanztest. Wir ziehen für beide Themen die gleichen Schlussfolgerungen.

Methode nach Vertrauensintervall

Da $ X_i \ sim N (\ mu, \ sigma ^ 2 $) ist, ist die Teststatistik $ \ bar {X} $ $ \ bar {X} $ ~ N (µ, $ \ sigma ^ 2 $ / n). Es ist so verteilt.

Da die Wahrscheinlichkeitsverteilung von $ \ bar {X} $ bekannt ist, legen Sie beispielsweise ein 100 (1 - α) -Konfidenzintervall von µ basierend auf $ \ bar {X} $ und µ = µ in diesem Konfidenzintervall fest. Möchten Sie sehen, ob es * enthält?

In diesem Fall kann die Nullhypothese nicht zurückgewiesen werden. Ist dies nicht der Fall, können wir die Nullhypothese ablehnen.

Wenn daher α = 0,05 ist, gibt es ein 95% -Konfidenzintervall, und wenn dieses Konfidenzintervall µ * enthält, ist es möglich, dass die Nullhypothese nicht verworfen wird. Das heißt, 95 der 100 festgelegten Intervalle können µ * enthalten.

Die tatsächliche Methode ist wie folgt. $ \ bar {X} $ ~ N (µ, $ \ sigma $ / n) image.png

Das heißt, es ist eine normale Standardvariable.

Da es sich in diesem Fall um einen zweiseitigen Test handelt, wird der z-Wert aus der Funktion norm.ppf mit 0,05 / 2 = 0,025 berechnet.

from scipy.stats import norm
norm.ppf(0.975) #Percent point function (inverse of cdf — percentiles).

1.959963984540054

Pr(-1.96≤Z_i≤1.96)= 0.95 Bekommen Mit anderen Worten Pr(−1.96≤\bar{X}− µσ /√n≤1.96)= 0.95 Wenn Sie es neu erstellen, Pr(\bar{X}− 1.96σ√n≤µ≤\bar{X}+ 1.96σ√n)= 0.95

Dies ist das 95% -Konfidenzintervall für µ. Sobald dieses Intervall festgelegt ist, wird der Nullhypothesentest einfacher. Wir müssen nur prüfen, ob µ = µ * in diesem Intervall liegt. In diesem Fall kann die Nullhypothese nicht zurückgewiesen werden. Wenn nicht, kann es abgelehnt werden.

In diesem Beispiel wurde bereits ein 95% -Konfidenzintervall für µ festgelegt. Dies ist 66,51 ≤ µ ≤ 67,49. Dieses Intervall enthält eindeutig nicht µ = 69. Daher wird die Nullhypothese zurückgewiesen, dass wahres µ 69 mit einem Konfidenzfaktor von 95% ist. Geometrisch ist die Situation in Abbildung A.12 dargestellt. In hypothetischen Testbegriffen wird der Bereich des festgelegten Konfidenzintervalls als Akzeptanzzone und der Bereich außerhalb der Adoptionszone als Nullhypothesen-Risikozone oder Ablehnungszone bezeichnet. Die unteren und oberen Grenzen der Akzeptanzzone (die sich von der Ablehnungszone unterscheidet) werden als kritische Werte bezeichnet. In diesem Hypothesentestterm kann die Nullhypothese nicht verworfen werden, wenn der Wert der Hypothese innerhalb des angenommenen Bereichs liegt. Andernfalls können Sie es ablehnen.

Bei der Entscheidung, ob H0 abgelehnt werden soll, können zwei Arten von Fehlern auftreten: (1) Obwohl es sich tatsächlich um H0 handelt, kann H0 abgelehnt werden. Dies wird als erstklassiger Fehler bezeichnet. (Daher kann im obigen Beispiel $ \ bar {X} $ = 67 zu einer Population mit einem Durchschnitt von 69 gehören) oder (2) Obwohl H0 tatsächlich falsch ist, kann es nicht abgelehnt werden. Dies wird als zweite Art von Fehler bezeichnet. Daher bestimmt der Hypothesentest nicht den wahren Wert von µ. Es bietet nur ein Mittel, um festzustellen, ob µ = µ * ist.

image.png

Idealerweise möchten Sie sowohl Fehler vom Typ 1 als auch vom Typ 2 minimieren. Leider minimiert das Ändern der Probengröße nicht beide Fehler gleichzeitig. Die klassische Herangehensweise an dieses Problem ist in der Arbeit von Neyman und Pearson enthalten, wo erstklassige Fehler tatsächlich schwerwiegender sind als Fehler zweiter Klasse.

Versuchen Sie daher, die Wahrscheinlichkeit erstklassiger Fehler auf einem relativ niedrigen Niveau wie 0,01 und 0,05 zu halten. Zweitens wird die Möglichkeit von Fehlern zweiter Klasse minimiert. In der Literatur wird die Wahrscheinlichkeit eines Fehlers vom Typ 1 als α geschrieben, was als Signifikanzniveau bezeichnet wird, und die Wahrscheinlichkeit eines Fehlers vom Typ 2 wird als β geschrieben. Die Wahrscheinlichkeit, dass der zweite Fehlertyp nicht auftritt, wird als Erkennungsleistung bezeichnet. Mit anderen Worten, Erkennung ist die Fähigkeit, falsche Nullhypothesen abzulehnen. Die klassische Methode zum Testen von Hypothesen besteht darin, α auf ein Niveau wie 0,01 (oder 1%) oder 0,05 (5%) festzulegen und dann die Detektion zu maximieren. Das heißt, es minimiert β. Für den Leser ist es wichtig, das Konzept der Erkennung zu verstehen. Dies wird anhand eines Beispiels erläutert.

Sei X bis N (µ, 100). Das heißt, X ist eine Normalverteilung mit dem Mittelwert µ und der Varianz 100. Angenommen, α = 0,05. Angenommen, Sie haben 25 beobachtete Stichproben, von denen $ \ bar {X} $ den Stichprobenmittelwert angibt. Nehmen wir weiter H0 an: µ = 50. Da X einer Normalverteilung folgt, folgt der Stichprobenmittelwert auch einer Normalverteilung von $ \ bar {X} $ bis N (µ, 100/25). Unter der Nullhypothese, dass µ = 50 ist, beträgt das 95% -Konfidenzintervall für $ \ bar {X} $ daher (µ ± 1,96 (100/25) = µ ± 3,92 oder (46,08 bis 53,92). Daher besteht die Ablehnungszone aus allen X-Werten unter 46,08 oder größer oder gleich 53,92. Wenn der Stichprobenmittelwert kleiner als 46,08 oder größer als 53,92 ist, wird die Nullhypothese, dass der wahre Durchschnitt 50 beträgt, verworfen. ..

Wenn sich der wahre µ-Wert jedoch von 50 unterscheidet, wie hoch ist die Wahrscheinlichkeit, dass sich $ \ bar {X} $ in der zuvor gezeigten Ablehnungszone befindet? Angenommen, es gibt drei alternative Hypothesen: µ = 48, µ = 52 und µ = 56. Wenn eine dieser Auswahlmöglichkeiten zutrifft, ist dies der tatsächliche Durchschnitt der Verteilung von $ \ bar {X} $. Da $ \ sigma ^ 2 $ als 100 angenommen wird, bleibt der Standardfehler der drei Alternativen gleich.

Der schattierte Bereich in Abbildung A.13 zeigt die Wahrscheinlichkeit, dass $ \ bar {X} $ in die Ablehnungszone fällt, wenn jede der alternativen Hypothesen wahr ist. Wie Sie sehen können, betragen diese Wahrscheinlichkeiten 0,17 (für µ = 48), 0,05 (für µ = 50), 0,17 (für µ = 52) und 0,85 (für µ = 56). Wie Sie dieser Abbildung entnehmen können, besteht eine hohe Wahrscheinlichkeit, die Hypothese abzulehnen, wenn sich der wahre Wert von µ signifikant von der betrachteten Hypothese unterscheidet (hier µ = 50), aber der wahre Wert ist die Nullhypothese. Wenn es sich nicht wesentlich von dem unter angegebenen Wert unterscheidet, ist die Wahrscheinlichkeit einer Ablehnung gering. Intuitiv ist dies sinnvoll, wenn sich die Nullhypothese und die Alternativhypothese sehr eng überschneiden.

image.png

print(norm.cdf((46.1-48)/np.sqrt(100/25)))
print(norm.cdf((46.1-50)/np.sqrt(100/25))+1-norm.cdf((53.9-50)/np.sqrt(100/25)))
print(1-norm.cdf((53.9-52)/np.sqrt(100/25)))
print(1-norm.cdf((53.9-56)/np.sqrt(100/25)))
0.171056126308482
0.051176119043277346
0.171056126308482
0.8531409436241042

Dies kann anhand von Abbildung A.14 besser verstanden werden. Dies wird als Erkennungskraftfunktionsdiagramm bezeichnet, und die dort gezeigte Kurve wird als Erkennungskraftkurve bezeichnet. Der Leser wird nun feststellen, dass der oben erwähnte Konfidenzfaktor (1 - α) einfach 1 minus der Wahrscheinlichkeit eines erstklassigen Fehlers ist. Ein Konfidenzfaktor von 95% bedeutet daher, dass Sie bereit sind, eine Wahrscheinlichkeit von maximal 5% für einen erstklassigen Fehler zu akzeptieren. In diesem Fall möchten Sie die wahre Hypothese nicht mehr als 5 von 100 Mal ablehnen. image.png

%matplotlib inline
import matplotlib.pyplot as plt
xxx=range(40,61,1)
x=[]
for xx in xxx:
    x.append(norm.cdf((46.1-xx)/np.sqrt(100/25))+1-norm.cdf((53.9-xx)/np.sqrt(100/25)))
plt.plot(xxx,x)

image.png p-Wert oder genaues Signifikanzniveau

Anstatt α auf einer beliebigen Ebene wie 1, 5 oder 10% vorzuwählen, berechnen Sie das genaue Signifikanzniveau des p- (Wahrscheinlichkeits-) Werts oder der Teststatistik. Der p-Wert ist definiert als das niedrigste Signifikanzniveau, das die Nullhypothese ablehnen kann.

Angenommen, Sie möchten einen t-Wert von 3,552 erhalten, wenn Sie 20 Freiheitsgrade haben. Hier kann die genaue Wahrscheinlichkeit, einen p-Wert oder einen t-Wert größer oder gleich 3,552 zu erhalten, aus Tabelle D.2 bis 0,001 (eine Seite) oder 0,002 (beide Seiten) berücksichtigt werden. Der beobachtete t-Wert von 3,552 ist bei 0,001 oder 0,002 statistisch signifikant, je nachdem, ob Sie einen einseitigen oder zweiseitigen Test verwenden. Einige Statistikpakete geben den p-Wert als Teststatistik aus. Daher wird empfohlen, dass der Leser den p-Wert nach Möglichkeit angibt.

Signifikanzmethode Test

Z_i = \frac{\bar{X}- \mu}{\sigma \sqrt{n}} \sim N(0,1)

Erinnere dich daran. $ \ bar {X} $ und n adressieren (oder können geschätzt werden) ein bekanntes Problem, aber die tatsächlichen µ und σ sind unbekannt. Unter der Annahme, dass σ angegeben ist und µ = µ * (unter H0), kann $ Z_i $ direkt berechnet werden, und ein kurzer Blick auf die Normalverteilungstabelle zeigt den berechneten Z-Wert. Sie bekommen die Wahrscheinlichkeit zu bekommen. Wenn diese Wahrscheinlichkeit gering ist, beispielsweise weniger als 5% oder 1%, können Sie die Nullhypothese ablehnen. Wenn die Hypothese wahr ist, ist es sehr wahrscheinlich, dass Sie einen bestimmten Z-Wert erhalten. Dies ist die allgemeine Idee hinter der Testmethode für signifikante Unterschiede beim Testen von Hypothesen. Eine wichtige Idee ist hier die Teststatistik (hier die Z-Statistik) und die Wahrscheinlichkeitsverteilung unter dem angenommenen Wert µ = µ $ ^ \ * $. Passenderweise wird dieser Test als Z-Test bezeichnet, da in diesem Fall der Z-Wert (standardisierter Standard) verwendet wird.

image.png

Ein Blick auf die Normalverteilungstabelle D.1 zeigt, dass die Wahrscheinlichkeit, einen solchen Z-Wert zu erhalten, sehr gering ist. (Hinweis: Die Wahrscheinlichkeit, dass ein Z-Wert 3 oder -3 überschreitet, beträgt ungefähr 0,001, sodass die Wahrscheinlichkeit, dass ein Z 8 überschreitet, noch geringer ist.) Daher kann die Nullhypothese, dass µ = 69 ist, verworfen werden. Angesichts dieses Wertes ist es sehr unwahrscheinlich, dass $ \ bar {X} $ 67 ist. Daher ist es zweifelhaft, ob die Stichprobe aus einer Population mit einem Durchschnittswert von 69 stammt. Die Situation ist in Abbildung A.15 dargestellt.

image.png

Wichtig ist, dass Sie die Nullhypothese generell ablehnen können. Die Teststatistik wird dann als signifikant angesehen, wenn die Wahrscheinlichkeit, sie zu erhalten, kleiner oder gleich der Wahrscheinlichkeit ist, einen erstklassigen Fehler zu machen. Daher können wir für α = 0,05 sehen, dass die Wahrscheinlichkeit, einen Z-Wert von -1,96 oder 1,96 zu erhalten, 5% beträgt (oder 2,5% für jeden Schwanz der standardisierten Normalverteilung). In diesem Beispiel war Z -8. Daher liegt die Wahrscheinlichkeit, einen solchen Z-Wert zu erhalten, weit unter 2,5% und damit weit unter der vorgegebenen Wahrscheinlichkeit, einen erstklassigen Fehler zu machen. Daher ist der berechnete Wert von Z = -8 statistisch signifikant. Das heißt, es lehnt die Nullhypothese ab, dass wahres µ * 69 ist. Die gleiche Schlussfolgerung wurde natürlich unter Verwendung des Konfidenzintervalls im Hypothesentest gezogen.

Hier ist eine Zusammenfassung der Schritte zum Testen statistischer Hypothesen.

Schritt 1. Bestimmen Sie die Nullhypothese H0 und die Alternativhypothese H1 (z. B. H0: µ = 69 und H1: µ $ \ ne $ 69). Schritt 2. Wählen Sie eine Teststatistik aus (z. B. $ \ bar {X} $). Schritt 3. Bestimmen Sie die Wahrscheinlichkeitsverteilung der Teststatistik (z. B. $ \ bar {X} $ ~ N (µ, $ \ sigma ^ 2 $ / n). Schritt 4. Wählen Sie das Wichtigkeitsniveau (dh die Wahrscheinlichkeit eines erstklassigen Fehlers) α. Schritt 5. Verwenden Sie die Wahrscheinlichkeitsverteilung der Teststatistik, um das Konfidenzintervall von 100 (1 - α)% zu ermitteln. Wenn der Wert des Parameters unter der Nullhypothese (z. B. µ = µ * = 69) in diesem Konfidenzintervall (angenommener Bereich) liegt, wird die Nullhypothese nicht verworfen. Wenn Sie sich jedoch außerhalb dieses Intervalls befinden (dh in der Ablehnungszone), können Sie die Nullhypothese ablehnen. Beachten Sie, dass, wenn Sie die Nullhypothese nicht ablehnen, eine Wahrscheinlichkeit von α% besteht, dass Ihre Entscheidung falsch ist.

Dies ist das Ende der einfachen Übersetzung von Basic Econometrics.

Über die Ablehnung der Nullhypothese

Dies bedeutet, dass die Nullhypothese verworfen wird

Im Hypothesentest wird entweder die Nullhypothese oder die Alternativhypothese als statistische Beurteilung basierend auf der Stichprobe ausgewählt. Wenn die alternative Hypothese ausgewählt wird, ist die Wahrscheinlichkeit, dass diese Auswahl falsch ist, garantiert kleiner oder gleich $ \ alpha $. Mit anderen Worten, die alternative Hypothese gilt stark.

Dies bedeutet, dass die Nullhypothese nicht zurückgewiesen wird

Es gibt keinen Grund, die Nullhypothese, dass sie nicht zurückgewiesen wird, aktiv zu unterstützen. Es gab einfach keinen ausreichenden Grund, die Nullhypothese abzulehnen.

Erstklassiger Fehler

Die erste Art von Fehler ist ein Fehler, der zurückgewiesen wird, wenn die Nullhypothese korrekt ist. Diese Wahrscheinlichkeit wird als $ \ alpha $ bezeichnet.

Zweite Art von Fehler

Es ist ein Fehler, der nicht zurückgewiesen wird, wenn die Nullhypothese falsch ist. Es ist ein Fehler, der die Nullhypothese nicht ablehnt, wenn die Alternativhypothese korrekt ist. Schreiben Sie diese Wahrscheinlichkeit als $ \ beta $. Wenn die alternative Hypothese korrekt ist, beträgt die Wahrscheinlichkeit, korrekt zu sein, $ 1- \ beta $.

Signifikanzniveau

Im Idealfall sind sowohl Fehler erster als auch zweiter Klasse gleichzeitig klein. Diese beiden stehen jedoch in einer Kompromissbeziehung. Daher versuchen wir im Allgemeinen, den Fehler vom Typ 2 zu reduzieren, während der Fehler vom Typ 1 unter einem bestimmten Wert von $ \ alpha $ bleibt. Dieses $ \ alpha $ wird als Signifikanzniveau bezeichnet und ist die Wahrscheinlichkeit eines erstklassigen Fehlers.

H_0Ist richtig(H_1Ist falsch) H_1Ist richtig(H_0Ist falsch)
H_0Ablehnung Erstklassiger Fehler(\alpha) Richtiges Urteil(1-\beta)
H_0Angenommen Richtiges Urteil(1-\alpha) Zweite Art von Fehler(\beta)

Erkennungsleistung

Betrachten Sie nun einen Versuch, 20 Mal Geld zu werfen. Ist die Währung verzerrt, wenn die Tabelle 15 Mal angezeigt wird?

Die Nullhypothese lautet, dass diese Währung nicht verzerrt ist.

Nullhypothese $ H_0 $: $ p = 0,5 $ Oppositionshypothese $ H_1 $: $ p \ ne 0,5 $

Nehmen wir also zunächst an, dass diese Währung nicht verzerrt ist, und ermitteln Sie die Wahrscheinlichkeit, dass die Tabelle 15 von 20 Mal angezeigt wird. $ p[X=k]=\frac{n!}{k!(n-k)!}p^k (1-p)^{(1-k)}=\frac{20!}{15!(20-15)!}0.5^{15}0.5^5 =0.015 $ Dies ist die Wahrscheinlichkeit, dass die Tabelle 15 Mal angezeigt wird, auch wenn keine Verzerrung vorliegt.

from math import factorial
a=factorial(20)/factorial(15)/factorial(20-15)
b=a*0.5**15*0.5**5
print(a,b)

15504.0 0.0147857666015625

Wenn Sie 15 Mal bekommen, sollten Sie 16, 17, 18, 19 und 20 Mal bekommen. $ p[X=k]=\frac{20!}{16!(20-16)!}0.5^{16}0.5^4 =0.005 $ $ p[X=k]=\frac{20!}{17!(20-17)!}0.5^{17}0.5^3 =0.001 $ $ p[X=k]=\frac{20!}{18!(20-18)!}0.5^{18}0.5^2 =0.0001 $ Unten weggelassen

p=0.5
sump=0
for i in range(6):
    a=factorial(20)/factorial(20-i)/factorial(i)
    b=a*p**(20-i)*(1-p)**i
    sump+=b
    print(i,a,b)
print("total",sump)

0 1.0 9.5367431640625e-07
1 20.0 1.9073486328125e-05
2 190.0 0.0001811981201171875
3 1140.0 0.001087188720703125
4 4845.0 0.004620552062988281
5 15504.0 0.0147857666015625
total 0.020694732666015625

Die Summe der Wahrscheinlichkeiten, mehr als 15 Mal zu erscheinen, beträgt jetzt 2%.

Das reicht aber nicht. Wenn die Tabelle 15 Mal angezeigt wird, wird sie möglicherweise nur 5 Mal angezeigt.

p=0.5
sump=0
for i in range(15,21):
    a=factorial(20)/factorial(20-i)/factorial(i)
    b=a*p**(20-i)*(1-p)**i
    sump+=b
    print(i,a,b)
print("total",sump)

15 15504.0 0.0147857666015625
16 4845.0 0.004620552062988281
17 1140.0 0.001087188720703125
18 190.0 0.0001811981201171875
19 20.0 1.9073486328125e-05
20 1.0 9.5367431640625e-07
total 0.020694732666015625

Daher beträgt die Summe 4%.

Mit einem Signifikanzniveau von 5% reicht dies nicht aus, um die Nullhypothese zu verwerfen, dass das Geld unverzerrt ist. Um das zu verstehen Als nächstes nehmen wir an, dass die Wahrscheinlichkeit, in der Tabelle zu erscheinen, 0,6 beträgt. $ p[X=k]=\frac{n!}{k!(n-k)!}p^k (1-p)^{(1-k)}=\frac{20!}{15!(20-15)!}0.6^{15}0.4^5 =0.075 $ $ p[X=k]=\frac{20!}{16!(20-16)!}0.6^{16}0.4^4 =0.035 $ $ p[X=k]=\frac{20!}{17!(20-17)!}0.6^{17}0.4^3 =0.012 $ $ p[X=k]=\frac{20!}{18!(20-18)!}0.6^{18}0.4^2 =0.0003 $

Dann beträgt die Wahrscheinlichkeit, im 15. Inning zu erscheinen, 12,5%. Berechnen wir auch den anderen.

p=0.6
sump=0
for i in range(6):
    a=factorial(20)/factorial(20-i)/factorial(i)
    b=a*p**(20-i)*(1-p)**i
    sump+=b
    print(i,a,b)
print("total",sump)
print()
for i in range(15,21):
    a=factorial(20)/factorial(20-i)/factorial(i)
    b=a*p**(20-i)*(1-p)**i
    sump+=b
    print(i,a,b)
print("two tails total",sump)

0 1.0 3.6561584400629733e-05
1 20.0 0.00048748779200839646
2 190.0 0.003087422682719845
3 1140.0 0.01234969073087938
4 4845.0 0.03499079040415825
5 15504.0 0.07464701952887093
total 0.12559897272303744

15 15504.0 0.0012944935222876579
16 4845.0 0.00026968615047659537
17 1140.0 4.230370987868163e-05
18 190.0 4.700412208742404e-06
19 20.0 3.2985348833280036e-07
20 1.0 1.0995116277760013e-08
two tails total 0.12721049736649373

Es wird sein. Mit anderen Worten, es besteht eine 4% ige Wahrscheinlichkeit, dass ein Ereignis wie 0,1,2,3,4,5,15,16,17,18,19,20 Mal in der Tabelle auftritt. Wenn Sie dasselbe mit $ p_0 = 0,6 $ tun und es zu Verzerrungen kommt, beträgt die Wahrscheinlichkeit 12,72%. Lassen Sie uns die beiden zum besseren Verständnis nebeneinander darstellen. Wenn der Bereich rechts von der blauen vertikalen Linie der Verteilung in der orangefarbenen Verteilung größer ist als in der blauen Verteilung, ist die orangefarbene Verteilung näher rechts als die blaue Verteilung, was bedeutet, dass die Münzen wahrscheinlich verzerrt sind. Werden.

%matplotlib inline
import matplotlib.pyplot as plt
p05=[]
p06=[]
ii=range(21)
for i in ii:
    a=factorial(20)/factorial(20-i)/factorial(i)
    p05.append(a*0.5**(20-i)*0.5**i)
    p06.append(a*0.4**(20-i)*0.6**i)
plt.plot(ii,p05,label='p=0.5',linestyle='--')
plt.plot(ii,p06,label='p=0.6')
plt.axvline(x=15)
plt.legend()

image.png

Machen wir dasselbe mit einer Normalverteilung.

Nullhypothese

H_0: p_0=0.5

Dann ist der Ablehnungsbereich

|X-np_0|=|X-20 \cdot 0.5|=|X-10|>c

Gegeben in. Unter der Annahme eines Signifikanzniveaus von 5%

P(|X-n \cdot p_0|\ge c |p=p_0)=0.05

Es wird sein.

Wenn $ X-n \ cdot p_0> 0 $, dann $ X-n \ cdot p_0> c $, dh $ c <X-n \ cdot p_0 $

Wenn $ X-n \ cdot p_0 <0 $, dann $ -X + n \ cdot p_0> c $, dh $ X-n \ cdot p_0 <-c $

Es wird sein. Dies ist der Ablehnungsbereich.

Wenn die Hypothese korrekt ist, folgt $ X $ einer Normalverteilung mit einem Mittelwert von $ n \ cdot p_0 $ und einer Varianz von $ n \ cdot p_0 (1-p_0) . Ebenfalls $ z=\frac{X-p \cdot n}{\sqrt{p(1-p)n}}$$ Folgt einer Normalverteilung mit Mittelwert Null und Varianz 1.

|X-n \cdot p_0|\ge 1.96 \sqrt{n \cdot p_0(1-p_0)}=1.96 \sqrt{20 \cdot 0.5 \cdot 0.5 }=4.4

Es wird sein.

Wenn $ X-n \ cdot p_0> 0 $, dann $ X-n \ cdot p_0> 4,4 $ oder $ 4,4 <X-n \ cdot p_0 $

Wenn $ X-n \ cdot p_0 <0 $, dann $ -X + n \ cdot p_0> 4,4 $, dh $ X-n \ cdot p_0 <-4,4 $

Also sind $ x <5,6 $ und $ 14,4 <X $ die Ablehnungsbereiche.

Wenn $ p_0 = 0,6 , $ z=\frac{14.4-0.6 \cdot 20}{\sqrt{0.6\cdot0.4\cdot 20}}=1.095$$ $ z=\frac{5.6-0.6 \cdot 20}{\sqrt{0.6\cdot0.4\cdot 20}}=-2.92$ Sie müssen nur die Wahrscheinlichkeit von finden.

a=(14.4-0.6*20)/np.sqrt(0.6*0.4*20)
b=(5.6-0.6*20)/np.sqrt(0.6*0.4*20)
print(a,b)
a=1-norm.cdf((14.4-0.6*20)/np.sqrt(0.6*0.4*20))
b=norm.cdf((5.6-0.6*20)/np.sqrt(0.6*0.4*20))
print(a,b,a+b)

1.0954451150103324 -2.921186973360886
0.13666083914614902 0.001743502446070691 0.1384043415922197

Die Wahrscheinlichkeit beträgt jetzt 13,8%. Daher beträgt die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, 13,8%, was das Signifikanzniveau von 5% überschreitet.

Erkennungsleistung

Wenn Sie die Wahrscheinlichkeit ausdrücken, einen zweiten Fehlertyp in $ \ beta $ zu machen, beträgt die Wahrscheinlichkeit, dass $ H_1 $ korrekt ist, $ 1- \ beta $. Dieses $ 1- \ beta $ wird als Erkennungsleistung bezeichnet. Was hier wichtig ist, ist, dass die Wahrscheinlichkeit, zu akzeptieren, wenn die Nullhypothese korrekt ist, $ 1- \ alpha $ ist, was nicht der Wahrscheinlichkeit entspricht, die Nullhypothese nicht abzulehnen, wenn die alternative Hypothese korrekt ist $ \ beta $. Um $ \ beta $ zu finden, müssen Sie $ \ theta_1 $ angeben, z. B. $ H_1: \ theta = \ theta_1 $.

Als nächstes muss $ H_0 $ abgelehnt werden, um festzustellen, ob $ H_1 $ korrekt ist, wenn es korrekt ist. Außerdem muss $ H_1 $ anstelle von $ \ ne \ theta_0 $ als bestimmter Wert angegeben werden. Wenn es sich um $ \ theta_1 $ handelt, beträgt das Signifikanzniveau zu diesem Zeitpunkt $ \ beta $.

Im vorherigen Beispiel beträgt die Erkennungsleistung 13,8%. Aber was ist, wenn Sie eine höhere Erkennungsleistung wünschen?

Erkennungsfunktion

Geschätzte Anzahl der Daten

Wie oben erwähnt, steigt bei 20 Daten die Erkennungsleistung nicht an. Unter welchen Bedingungen kann beispielsweise die Erkennungsleistung auf fast 90% erhöht werden?

Unter der Annahme, dass die Wahrscheinlichkeit, dass die Vorder- und Rückseite der Währung angezeigt wird, gleich ist, ist der Ablehnungsbereich bei einem Signifikanzniveau von 5% der, wenn die Anzahl der Beobachtungsdaten 20 beträgt.

|X-np_0|=|X-20 \cdot 0.5|=|X-10|>c

Gegeben in. Ersetzen Sie zunächst diese Anzahl von Beobachtungen durch $ n $. Zu diesem Zeitpunkt wird erwartet, dass die Anzahl der Daten groß ist, sodass die Binomialverteilung durch eine Normalverteilung angenähert wird.

from scipy.stats import norm
norm.ppf(0.025)

-1.9599639845400545

Dann

|X-np_0|=|X-0.5n|\ge 1.96 \cdot 0.5 \sqrt{n}=0.98\sqrt{n}

Es wird sein. Zuerst

P(|X-np_0|=|X-n0.5|> 0.98\sqrt{n})

Nachdenken über. Dies ist die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird.

Nehmen wir als nächstes an, dass das tatsächliche Geld verzerrt ist und die Wahrscheinlichkeiten für Vorder- und Rückseite $ p $ und $ 1-p $ sind.

z=\frac{X-p \cdot n}{\sqrt{p(1-p)n}}

Folgt einer Normalverteilung mit Mittelwert Null und Varianz 1.

Wie groß ist die Wahrscheinlichkeit, dass sich $ X $ in der Ablehnungszone befindet, wenn $ p = 0,7 $ ist?

P(|X-n0.5|\ge 0.98\sqrt{n}|p=0.7,1-p=0.3)

Ich möchte, dass es 90% oder mehr ist.

Teilen Sie $ P (X-0.5n> 0.98 \ sqrt {n}) $ durch $ \ sqrt {p (1-p) n} $, verschieben Sie $ 0.5n $ nach rechts und fügen Sie -pn zu beiden Seiten hinzu. Wenn verwandelt

P\left(\frac{X-p \cdot n}{\sqrt{p(1-p)n}}>\frac{(0.5-p)\sqrt{n}+0.98}{\sqrt{p(1-p)}}\right)+ P\left(\frac{X-p \cdot n}{\sqrt{p(1-p)n}}<\frac{(0.5-p)\sqrt{n}-0.98}{\sqrt{p(1-p)}}\right)>0.9

Es wird sein.

Wenn $ p = 0,7 $, folgt $ X $ einer Normalverteilung mit ungefähr dem Mittelwert von $ 0,7n $ und der Standardabweichung $ \ sqrt {0,7 \ cdot 0,3 * n} = 0,46 \ sqrt {n} $.

Lassen Sie uns nun die Parameter finden. $ P\left(\frac{X-0.7 \cdot n}{0.46\sqrt{n}}>2.13-0.43\sqrt{n}\right)+P\left(\frac{X-0.7 \cdot n}{0.46\sqrt{n}}<-2.13+0.43\sqrt{n}\right)$

norm.ppf(0.9)

1.2815515655446004

Dann wird es $ -2,13 + 0,43 \ sqrt {n} \ ge1,282 $, und 90% können erreicht werden, wenn $ n $ ungefähr 63 ist.

((1.282+2.13)/0.43)**2

62.9623796646836
%matplotlib inline
import matplotlib.pyplot as plt
p05=[]
p06=[]
n=61
ii=range(1,n+1)
for i in ii:
    a=factorial(n)/factorial(n-i)/factorial(i)
    p05.append(a*0.5**(n-i)*0.5**i)
    p06.append(a*0.3**(n-i)*0.7**i)
plt.plot(ii,p05,label='p=0.5',linestyle='--')
plt.plot(ii,p06,label='p=0.7')
plt.axvline(x=39)
plt.legend()

image.png

Die Fläche der orangefarbenen Verteilung rechts von der blauen vertikalen Linie beträgt jetzt 90%. Mit anderen Worten ist der Bereich rechts von der orangefarbenen Verteilung von der vertikalen Linie 1-β und der Teil links ist β.

Allgemeiner

Tests mit dem Signifikanzniveau $ \ alpha $ sind Teststatistiken $z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}$ Realisierter Wert von $ z ^ \ prime $

Wenn es $ z ^ \ prime \ ge z_ \ alpha $ ist, wird $ H_0 $ abgelehnt. Wenn $ z ^ \ prime <z_ \ alpha $ ist, reicht es nicht aus, $ H_0 $ abzulehnen.

Es wird sein.

H_0:\mu = \mu_0
H_1:\mu \ne \mu_0
Wenn $ \ mu $ auf $ \ mu = \ mu_1 $ gesetzt ist ($ \ mu_1 $ ist bekannt) Die Teststatistik, wenn $ H_0 $ oder $ H_1 $ korrekt ist

E(z|H_0)=0
E(z|H_1)=\sqrt{n}\delta
V(z|H_0)=V(z|H_1)=1 Es wird eine Normalverteilung von. Hier $\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}}=\sqrt{n}\frac{\mu_1-\mu_0}{\sigma}=\sqrt{n}\delta$

Konvertieren in $ z ^ \ star = z- \ sqrt {n} \ delta $ z^\star \sim N(0,1)
Es wird sein.

P(z\le z_\alpha|H_1)=P(z^\star\le z_\alpha-\sqrt{n}\delta|z^\star\sim N(0,1))

Bestimmt, ob die Aktienrendite Null ist. Volatilität und jährliche Rendite sind mit 20% und 20% bekannt. Wie viele Daten sind vorhanden, um die Erkennungsleistung bei einem Signifikanzniveau von 5% auf 90% zu bringen?

H_0:\mu=\mu_0=0
H_1:\mu \ne \mu_0

Korrigieren Sie die Volatilität auf die Standardabweichung des Tages.

import numpy as np
0.2/np.sqrt(250)

0.012649110640673518

Wenn $ \ mu_1 $ 5% beträgt, beträgt die tägliche Rendite

0.20/250

0.0008
norm.ppf(0.05)

1.2815515655446004

z^\star=z_\alpha-\sqrt{n}\delta=1.645-\sqrt{n}0.0008/0.0126

0.0008/0.0126

46.42857142857142
norm.ppf(0.9)

(1.645+1.28)/0.063

\sqrt{n}=\frac{1.645+1.28}{0.0158}=46

46**2

2116

Sie benötigen Daten für fast 10 Jahre.

Stellen wir also die jährliche Gewinnspanne auf 90% ein.

v=0.2
r=0.9
a=0.05
power=0.9
v1=v/np.sqrt(250)
r1=r/250
x=norm.ppf(1-a)
y=norm.ppf(power)
((x+y)/(r1/v1))**2

105.7265105020738

Dies bedeutet, dass wir nur etwa 100 Tage Daten benötigen.

β

image.png

image.png

Die Erfassungsleistung kann erhöht werden, indem die Differenz in P erhöht oder die Anzahl der Daten erhöht wird.

Ist die Nullhypothese schwierig?

Ich habe Kimukasetsu im Übersetzungsteil von BASIC ECONOMETRICS erklärt, aber es ist oft der Fall, dass die Rolle eines bestimmten statistischen Tests bekannt ist, aber die Nullhypothese ist etwas unklar.

jarque-Bera test

Es ist einer der Eignungstests für die Normalverteilung und verwendet die Schärfe der Verzerrung. Die Nullhypothese hat keine Verzerrung und keine Schärfe. Mit anderen Worten folgt es einer Normalverteilung.

Versuchen wir eine Normalverteilung.

import numpy as np
import statsmodels.api as sm
import statsmodels.stats.api as sms
from statsmodels.compat import lzip
nsample=100
name = ['Jarque-Bera', 'Chi^2 two-tail prob.', 'Skew', 'Kurtosis']
e = np.random.normal(size=nsample)
test = sms.jarque_bera(e)
lzip(name, test)

[('Jarque-Bera', 0.12532827370844277),
 ('Chi^2 two-tail prob.', 0.9392588831621588),
 ('Skew', 0.061591593745002705),
 ('Kurtosis', 2.877915242516404)]

Die Nullhypothese reicht nicht aus, um sie abzulehnen. Es kann nicht geleugnet werden, dass Zufallszahlen eine Normalverteilung haben. Als nächstes versuchen wir eine gleichmäßige Verteilung.

ee=np.random.rand(nsample)
test = sms.jarque_bera(ee)
lzip(name, test)

[('Jarque-Bera', 6.766980830340755),
 ('Chi^2 two-tail prob.', 0.033928822141024814),
 ('Skew', -0.13374676721016596),
 ('Kurtosis', 1.7539973481869713)]

Die Nullhypothese wurde abgelehnt. Zufallszahlen folgen keiner Normalverteilung.

Dickey–Fuller test

Der DF- oder ADF-Test ist eine zusammengesetzte Hypothese. Die Nullhypothese lautet, dass das AR-Modell eine Einheitswurzel enthält. Es gibt drei Arten.

  1. Zufälliges Gehen ohne Drift image.png
  2. Zufälliger Spaziergang mit Drift image.png
  3. Zufälliger Spaziergang mit Drift + Zeittrend image.png

H_0:\delta=0 H_1: \delta<0 ist.

Trend stetig

from statsmodels.tsa.stattools import adfuller
import pandas as pd
index=['ADF Test Statistic','P-Value','# Lags Used','# Observations Used']

nsample = 100
y_true = np.linspace(0, 0.2*nsample/260, nsample)
y = y_true
plt.plot(y)
adfTest = adfuller(y, autolag='AIC')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results:')
print(dfResults)

Augmented Dickey-Fuller Test Results:
ADF Test Statistic       0.689710
P-Value                  0.989630
# Lags Used             11.000000
# Observations Used     88.000000
Critical Value (1%)     -3.506944
Critical Value (5%)     -2.894990
Critical Value (10%)    -2.584615

image.png

Die Nullhypothese wurde nicht zurückgewiesen, da die generierte Zeitreihe trendstabil ist.

In solchen Fällen sollte der DF (ADF) -Test nach Entfernen des Trends durchgeführt werden.

Normale Zufallszahl

nsample = 100
y_true = np.linspace(0, 0.2*nsample/260, nsample)
e = np.random.normal(size=nsample)
y = y_true + e
plt.plot(y)
adfTest = adfuller(y, autolag='AIC')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results:')
print(dfResults)

Augmented Dickey-Fuller Test Results:
ADF Test Statistic     -1.141212e+01
P-Value                 7.207876e-21
# Lags Used             0.000000e+00
# Observations Used     9.900000e+01
Critical Value (1%)    -3.498198e+00
Critical Value (5%)    -2.891208e+00
Critical Value (10%)   -2.582596e+00

image.png

Da es sich um eine normale Zufallszahl handelt, wurde die Nullhypothese zurückgewiesen.

Zufälliger Spaziergang ohne Drift

from statsmodels.tsa.stattools import adfuller
import pandas as pd
index=['ADF Test Statistic','P-Value','# Lags Used','# Observations Used']

nsample = 100
e = np.random.normal(size=nsample)
y = np.cumsum(e)
adfTest = adfuller(y, autolag='AIC')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results:')
print(dfResults)

Augmented Dickey-Fuller Test Results:
ADF Test Statistic       0.470182
P-Value                  0.983938
# Lags Used              0.000000
# Observations Used     99.000000
Critical Value (1%)     -3.498198
Critical Value (5%)     -2.891208
Critical Value (10%)    -2.582596
dtype: float64

Die generierte Zeitreihe war ein zufälliger Spaziergang ohne Drift, daher reichte es nicht aus, die Nullhypothese abzulehnen.

Random Walk + deterministischer Trend

Erstellen Sie einen deterministischen Trend mit einer jährlichen Rendite von 20% und einem zufälligen Spaziergang mit einer Volatilität von 20%. Addieren wir sie und sehen, wie die Ergebnisse mit dem Dicky Fuller-Test aussehen.

nsample = 260
y_true = np.linspace(0, 0.2*nsample/260, nsample)
e = np.random.normal(size=nsample)
sigma=0.2/np.sqrt(260)
y = y_true + np.cumsum(e*sigma)
plt.plot(y)
adfTest = adfuller(y,regression='nc', autolag='AIC')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results reg=nc:')
print(dfResults)
adfTest = adfuller(y,regression='c', autolag='AIC')
dfResults = pd.Series(adfTest[0:4], index)
print('Augmented Dickey-Fuller Test Results reg=c:')
print(dfResults)
adfTest = adfuller(y,regression='ct', autolag='AIC')
dfResults = pd.Series(adfTest[0:4], index)
print('Augmented Dickey-Fuller Test Results reg=ct:')
print(dfResults)

Augmented Dickey-Fuller Test Results reg=nc:
ADF Test Statistic       -1.618005
P-Value                   0.099695
# Lags Used               1.000000
# Observations Used     258.000000
Critical Value (1%)      -2.574460
Critical Value (5%)      -1.942090
Critical Value (10%)     -1.615830
dtype: float64
Augmented Dickey-Fuller Test Results reg=c:
ADF Test Statistic       -1.838595
P-Value                   0.361476
# Lags Used               1.000000
# Observations Used     258.000000

Augmented Dickey-Fuller Test Results reg=ct:
ADF Test Statistic       -2.218211
P-Value                   0.479608
# Lags Used               5.000000
# Observations Used     254.000000

image.png

  1. Beim Random Walk ohne Drift wurde die Nullhypothese verworfen.
  2. Beim Random Walk mit Drift wurde die Nullhypothese nicht zurückgewiesen.
  3. Beim Random Walk mit Drift + Zeittrend wurde die Nullhypothese nicht zurückgewiesen.

Wenn im DF- oder ADF-Test das Zeitreihenmodell nicht im Voraus bekannt ist, wird die Erkennungsleistung reduziert. Daher ist es notwendig, das Zeitreihenmodell im Voraus zu bestimmen.

Auch die obigen drei Typen reichen nicht aus, um zu unterscheiden. Es gibt viele mögliche deterministische Trends, und die Debatte ist endlos.

Campbell, J. Y.; Perron, P. (1991). "Pitfalls and Opportunities: What Macroeconomists Should Know about Unit Roots"

Stock J. Unit Roots, Structural Breaks, and Trends. In: Engle R, McFadden D Handbook of Econometrics. Amsterdam: Elsevier ; 1994. pp. 2740-2843.

nsample = 260
parm=nsample/260*0.2
y_true = np.linspace(0, parm, nsample)
e = np.random.normal(size=nsample)
sigma=0.2/np.sqrt(260)
ar=[1]
i=1
a=0.9
for ee in e:
    ar.append(1-a+a*ar[i-1]+ee*sigma)
    i+=1
y = y_true + ar[1:]
plt.plot(y)
adfTest = adfuller(y,regression='nc')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results reg=nc:')
print(dfResults)
adfTest = adfuller(y,regression='c')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results reg=c:')
print(dfResults)
adfTest = adfuller(y,regression='ct')
dfResults = pd.Series(adfTest[0:4], index)
for key,value in adfTest[4].items():
    dfResults['Critical Value (%s)'%key] = value
print('Augmented Dickey-Fuller Test Results reg=ct:')
print(dfResults)

image.png

Vorhersagerichtung

Wenn in der Richtungsbewertung die Richtung der tatsächlichen Preisbewegung und die Richtung der Prognose gleich sind, wird sie auf 1 gesetzt, andernfalls wird sie auf 0 gesetzt. Dann wird die Differenz beurteilt, indem der Durchschnittswert der Bewertungen mit 0,5 verglichen wird, dh die Situation, in der die Anzahl der richtigen Richtungen und die Anzahl der falschen Richtungen gleich sind. Die Nullhypothese kann nicht vorhersagen ($ dL = 0,5 $), und die folgenden Statistiken werden im Test verwendet.

\frac{\hat{dL}-0.5}{\sqrt{0.25/n}}

Folgt einer Normalverteilung.

Verweise

Basic Econometricsby Damodar N. Gujarati Mathematische Statistik Kei Takeuchi Einführung in die Statistik, Institut für Statistik, Fakultät für Geisteswissenschaften, Universität Tokio 7 Grundsätze der Statistik <IMG SRC="http://www.tradersshop.com/images/prod/9784775941683.jpg "

Recommended Posts

Einführung in das Testen statistischer Hypothesen mit Statistikmodellen
Einführung in Vector Self-Return-Modelle (VAR) mit Statistikmodellen
Einführung in Vector Error Correction Models (VECM) mit Statistikmodellen
Einführung in das Generalized Linear Model (GLM) von Python
Einführung in RDB mit sqlalchemy Ⅰ
Einführung in RDB mit sqlalchemy II
Einführung in die statistische Modellierung für die Datenanalyse Generalized Linear Model (GLM)
Einführung in die Bayes'sche statistische Modellierung mit Python ~ Versuch einer linearen Regression mit MCMC ~
[Einführung in WordCloud] Spielen Sie mit Scraping ♬
Einführung in das maschinelle Lernen: Funktionsweise des Modells
Einführung in das Auffüllen von Python-Bildern Auffüllen von Bildern mit ImageDataGenerator
Implementieren Sie gemeinsam statistische Hypothesentests in Python
[Einführung in Python] Verwenden wir foreach mit Python
[Einführung in Pytorch] Ich habe mit sinGAN ♬ gespielt
Erstellen von CSV-Beispieldaten mit Hypothese
[Python] Einfache Einführung in das maschinelle Lernen mit Python (SVM)
Einführung in die künstliche Intelligenz mit Python 1 "Genetic Algorithm-Theory-"
Markov Chain Artificial Brainless mit Python + Janome (1) Einführung in Janome
Markov-Kette Künstlich Gehirnlos mit Python + Janome (2) Einführung in die Markov-Kette
Einführung in die künstliche Intelligenz mit Python 2 "Genetic Algorithm-Practice-"
[Einführung in StyleGAN2] Unabhängiges Lernen mit 10 Anime-Gesichtern ♬
Einführung in Tornado (1): Python Web Framework mit Tornado gestartet
Eine Einführung in die statistische Modellierung für die Datenanalyse
Einführung in den Formationsflug mit Tello edu (Python)
[Einführung zur Minimierung] Datenanalyse mit SEIR-Modell ♬
Einführung in Python mit Atom (unterwegs)
[Einführung in die Udemy Python3 + -Anwendung] 9. Drucken Sie zunächst mit print
Einführung in MQTT (Einführung)
Einführung in Scrapy (1)
Einführung in Scrapy (3)
Erste Schritte mit Supervisor
Einführung in Tkinter 1: Einführung
Einführung in PyQt
Einführung in Scrapy (2)
[Linux] Einführung in Linux
Einführung in Scrapy (4)
Einführung in discord.py (2)
[Einführung in Python] Wie iteriere ich mit der Bereichsfunktion?
[Einführung in Word Cloud] Einfache Verwendung mit Jetson-nano ♬
[Kapitel 5] Einführung in Python mit 100 Klopfen Sprachverarbeitung
Einführung in die verteilte Parallelverarbeitung von Python durch Ray
Einführung in die Mathematik ab Python Study Memo Vol.1
Lesehinweis: Einführung in die Datenanalyse mit Python
[Kapitel 6] Einführung in Scicit-Learn mit 100 Klopfen Sprachverarbeitung
[Kapitel 3] Einführung in Python mit 100 Klopfen Sprachverarbeitung
[Einführung in Pytorch] Ich habe versucht, Cifar10 mit VGG16 ♬ zu kategorisieren
[Kapitel 2] Einführung in Python mit 100 Klopfen Sprachverarbeitung
[Einführung in AWS] Ich habe versucht, mit der Sprach-Text-Konvertierung zu spielen ♪
[Kapitel 4] Einführung in Python mit 100 Klopfen Sprachverarbeitung