Diese Reihe ist eine kurze Erklärung von "The Basics of Modern Mathematical Statistics" von Tatsuya Kubogawa und lässt uns den Inhalt in Python implementieren. Ich habe Google Colaboratory (im Folgenden als Colab bezeichnet) für die Implementierung verwendet. Wenn Sie Vorschläge haben, würde ich mich freuen, wenn Sie diese in den Kommentarbereich schreiben könnten. Es ist möglicherweise nicht für diejenigen geeignet, die den gesamten Inhalt des Buches richtig verstehen möchten, da es mit der Haltung geschrieben ist, dass es schön wäre, wenn es ausgegeben werden könnte, indem nur der Teil berührt wird, von dem ich dachte, dass er einer Erklärung bedarf. Bitte beachten Sie, dass die Zahlen in diesem Artikel möglicherweise übersprungen werden, wenn die Formelnummern und Satz- / Definitionsindizes gemäß dem Buch geschrieben wurden.
Die Funktion, die die Wahrscheinlichkeit durch Angabe einer Variablen berechnen kann, war die Wahrscheinlichkeitsverteilung. Jede der verschiedenen Arten von Wahrscheinlichkeitsverteilungen hat ihre eigenen Eigenschaften und Verwendungen. Es ist wichtig zu wissen, welche Merkmale jede Wahrscheinlichkeitsverteilung aufweist, da Sie bei Ihrer Vorhersage einen Fehler machen, wenn Sie bei der angenommenen Wahrscheinlichkeitsverteilung einen Fehler machen. Sie können den erwarteten Wert und die Varianz der Wahrscheinlichkeitsverteilung mithilfe der Wahrscheinlichkeitsgenerierungsfunktion, der Produktfaktorgenerierungsfunktion und der charakteristischen Funktion im vorherigen Kapitel ermitteln, aber ich denke, Sie sollten sich daran erinnern. Sie können sich daran erinnern, während Sie es verwenden. Am Ende des Kapitels gehen wir auf Steins Gleichungen und Sterling-Formeln ein. Wenn Sie googeln, finden Sie viele Wahrscheinlichkeitsverteilungen, die im Artikel nicht vorgestellt werden. Ich werde zu einem anderen Zeitpunkt einen Artikel über "Wahrscheinlichkeitsgenerierungsfunktion, Produktfaktorgenerierungsfunktion, charakteristische Funktion" schreiben, um den Satz unter Verwendung der Wahrscheinlichkeitsgenerierungsfunktion zu beweisen, daher möchte ich ihn zu diesem Zeitpunkt vorstellen.
$ $
Wir haben uns in Kapitel 2 mit erwarteten Werten und Abweichungen befasst, aber die Beziehung zwischen erwarteten Werten und Abweichungen nicht angesprochen. Sei $ E [X] = \ mu $ und
$ $ Lassen Sie mich vor der Binomialverteilung den Bernoulli-Versuch erklären. Lassen Sie mich den Ausdruck im Buch zitieren
Ein Bernoulli-Versuch ist ein Experiment, bei dem eine $ p $ -Wahrscheinlichkeit des Erfolgs ', eine $ 1-p $ -Wahrscheinlichkeit des' Fehlschlags 'und eine Wahrscheinlichkeitsvariable $ X $ der Erfolg', $ 1 $, 'sind. Nimm $ 0 $ bei Misserfolg '.
Die Binomialverteilung ist eine Verteilung, bei der die Variable $ X $ die "Anzahl der Erfolge" ist, wenn dieser Bernoulli-Versuch unabhängig durchgeführt wird (der vorherige Versuch hat keinen Einfluss auf den nächsten Versuch) $ n $. Die Wahrscheinlichkeit, $ k $ mal und $ nk $ mal nicht zu bestehen, wird durch die folgende Formel ausgedrückt ("Erfolg", "Misserfolg" sind nur einfache Worte, "krank werden", "nicht bekommen" usw.). Alles was du tust).
Zeichnen wir als Beispiel die Wahrscheinlichkeitsverteilung, wie oft die Tabelle erscheint, wenn die Münze 30-mal und 1000-mal geworfen wird.
Die Poisson-Verteilung ist ein spezielles Beispiel für die Binomialverteilung, und wenn "seltene Phänomene" in großer Zahl "beobachtet (ausprobiert)" werden können (Beispiel: Verteilung der Anzahl der Verkehrsunfälle, die an einem Tag auftreten), die Binomialverteilung Verwenden Sie stattdessen die Poisson-Verteilung. Mit anderen Worten, wenn Sie das Limit von
Lassen Sie uns die Binomialverteilung und die Poisson-Verteilung mit Python überprüfen.
%matplotlib inline
import matplotlib.pyplot as plt
from scipy.special import comb#Funktion zur Berechnung der Kombination
import pandas as pd
#Diagrammzeichnung der Binomialverteilung
def Bin(n,p,x_min,x_max,np):
prob = pd.Series([comb(float(n),k)*p**k*(1-p)**(float(n)-k) for k in range(0,n+1)]) #Berechnen Sie die Wahrscheinlichkeit bei jedem k
plt.bar(prob.index,prob,label=np)#Balkendiagramm (y-Wert,x Wert)
plt.xlim(x_min,x_max)
plt.legend()
plt.show()
Bin(1000,0.5,0,30,"n=30,p=0.5")#30 Münzen
Bin(10000,0.5,4500,5500,"n=1000,p=0.5")#1000 Münzen
Bin(40000,0.00007,0,15,"n=40000,p=0.00007")#Versuchen Sie, n zu erhöhen und p zu verringern
Wenn Sie dies tun, erhalten Sie die folgenden drei Diagramme.
Es ist die gleiche Funktion, aber es ist ein wenig verzerrt und Sie können so etwas wie eine Poisson-Distribution zeichnen.
Die verbleibenden drei diskreten Wahrscheinlichkeitsverteilungen haben auch ihre eigenen einzigartigen Ideen, aber ich denke, Sie können sie lesen, wenn Sie wissen, was die diskrete Wahrscheinlichkeitsvariable $ X $ darstellt.
Die im Buch eingeführte kontinuierliche Verteilung ist wie folgt ・ Gleichmäßige Verteilung ·Normalverteilung ・ Gammaverteilung, Chi-Quadrat-Verteilung ・ Exponentialverteilung, Gefahrenverteilung ・ Beta-Verteilung Lassen Sie es uns auch hier abholen.
$ $
Die Normalverteilung ist die wichtigste Wahrscheinlichkeitsverteilung, da sie eine symmetrische Form hat, die auf dem Mittelwert zentriert ist, und einfach zu handhaben ist.
Wenn die Wahrscheinlichkeitsvariable $ X $ einer Normalverteilung mit dem Mittelwert $ \ mu, $ Varianz $ \ sigma ^ 2 $ folgt, ist die Wahrscheinlichkeitsdichtefunktion für $ X $ $$ f_X (x | \ mu, \ sigma ^ 2) = \ frac {1} {\ sqrt {2 \ pi} \ sigma} \ exp (- \ frac {(x- \ mu) ^ 2} {2 \ sigma ^ 2}) Diese Verteilung ist $ \ mathcal Es wird durch {N} (\ mu, \ sigma ^ 2) $ dargestellt. Das standardisierte $$ mathcal {N} (0,1) $ wird als Standardnormalverteilung bezeichnet, und
$ $ Es gibt eine Chi-Quadrat-Verteilung als Sonderfall der Gamma-Verteilung, aber die Chi-Quadrat-Verteilung ist in der Statistik wichtiger. Wie wir in späteren Kapiteln sehen werden, wird die Chi-Quadrat-Verteilung zur Segmentschätzung der Populationsvarianz, zum Fit-Test, zum Unabhängigkeitstest usw. verwendet. Da die in den Kapiteln 4 und 5 aufgeführten Eigenschaften für die Chi-Quadrat-Verteilung wichtiger sind als die mit der Gammafunktion ausgedrückte Formel, wird hier nur die Form der Chi-Quadrat-Verteilung gezeichnet. Die Chi-Quadrat-Verteilung mit $ n $ Freiheit wird durch $ \ chi_n ^ 2 $ dargestellt. Ich werde den Freiheitsgrad weglassen, weil er in den folgenden Kapiteln besser verstanden wird.
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
x1 = np.arange(0,15,0.1)
y1 = stats.chi2.pdf(x=x1,df=1)#df=degree of freedom(Freiheitsgrad)ist
y2 = stats.chi2.pdf(x=x1,df=2)
y3 = stats.chi2.pdf(x=x1,df=3)
y4 = stats.chi2.pdf(x=x1,df=5)
y5 = stats.chi2.pdf(x=x1,df=10)
y6 = stats.chi2.pdf(x=x1,df=12)
plt.figure(figsize=(7,5))
plt.plot(x1,y1, label='n=1')
plt.plot(x1,y2, label='n=2')
plt.plot(x1,y3, label='n=3')
plt.plot(x1,y4, label='n=5')
plt.plot(x1,y5, label='n=10')
plt.plot(x1,y6, label='n=12')
plt.ylim(0,0.7); plt.xlim(0,15)
plt.legend()
plt.show()
Wenn Sie dies tun, erhalten Sie:
$ $
Die Wahrscheinlichkeitsdichtefunktion der Exponentialverteilung wird durch die folgende Formel angegeben und als $ Ex (\ lambda) $ ausgedrückt.
In der Beta-Verteilung nimmt die Wahrscheinlichkeitsvariable $ X $ einen Wert für das Intervall (0,1) an, und ihre Wahrscheinlichkeitsdichtefunktion ist
Ich habe nur einige vorgestellt, aber das ist alles für Kapitel 3. Vielen Dank.
"Grundlagen der modernen mathematischen Statistik" von Tatsuya Kubogawa
Recommended Posts