Diese Reihe ist eine kurze Erklärung von "The Basics of Modern Mathematical Statistics" von Tatsuya Kubogawa und lässt uns den Inhalt in Python implementieren. Ich habe Google Colaboratory (im Folgenden als Colab bezeichnet) für die Implementierung verwendet. Wenn Sie Vorschläge haben, würde ich mich freuen, wenn Sie diese in den Kommentarbereich schreiben könnten. Es ist möglicherweise nicht für diejenigen geeignet, die den gesamten Inhalt des Buches richtig verstehen möchten, da es so geschrieben ist, dass es schön wäre, wenn es ausgegeben werden könnte, indem nur der Teil berührt wird, von dem ich dachte, dass er einer Erklärung bedarf. Bitte beachten Sie, dass die Zahlen in diesem Artikel möglicherweise übersprungen werden, wenn die Formelnummern und Satz- / Definitionsindizes gemäß dem Buch geschrieben wurden.
Zunächst erklären wir die Wahrscheinlichkeitsverteilung in diskreten und kontinuierlichen Typen, indem wir die Wahrscheinlichkeitsvariablen, die wir beiläufig verwenden, streng ausdrücken. Es mag verwirrend sein, ähnliche Wörter zu finden, aber sobald Sie den Inhalt verstanden haben, werden Sie nicht verloren gehen. Als nächstes wird der erwartete Wert definiert und die Varianz, Standardabweichung usw. werden erklärt. Wahrscheinlichkeitsgenerierungsfunktionen, Produktfaktorgenerierungsfunktionen und charakteristische Funktionen sind für Sie möglicherweise neu, aber sie sind wichtige Funktionen, die Ihr Wissen über Statistiken vertiefen. Ich denke, es ist in Ordnung, nur die Idee der endgültigen Variablenkonvertierung zu kennen und sie jedes Mal zu tun, wenn Sie sie benötigen. Ich denke, dass das erste und das zweite Kapitel die Vorbereitungen für das dritte und die folgenden Kapitel sind, und selbst wenn sie im Moment nicht perfekt sind, könnte ich sie beim Lesen verstehen.
$$ Die Wahrscheinlichkeitsvariable dient nicht dazu, alle Ereignisse zu behandeln, an die Sie denken, sondern die Handhabung zu vereinfachen, indem die unwichtigen Teile weggelassen werden. Nehmen wir zum Beispiel an, Sie wählen zufällig 100 Personen aus und fragen, ob Sie Guppy mögen. Alle Ereignisse $ \ Omega $ bestehen aus $ 2 ^ {100} $ Elementen, was eine individuelle Unterscheidung darstellt. Aber was ich jetzt wissen möchte, ist, wie viele von 100 Menschen Guppy mögen. Alle Ereignisse, bei denen eine Person unterschieden wird $ \ Omega $ ("Personen, die mit" Gefällt mir "geantwortet haben, sind 1 und" Personen, die mit "Nicht mögen" geantwortet haben, sind 0) und die Wahrscheinlichkeitsvariable, wenn Personen nicht unterschieden werden, ist $ X $ Alle Ereignisse (Beispielbereich) $ \ chi $ von $ X $ zu diesem Zeitpunkt sind
Definition:
Wenn die kumulative Verteilungsfunktion der stochastischen Variablen $$ $ F_X (x) $ ist, kann sie ausgedrückt werden als
$ F_X (x) = P (X \ leq x) $ .
Beispiel: Wie hoch ist die Wahrscheinlichkeit, einmal zu würfeln und 4 oder weniger zu bekommen? Antwort: $ F_X (4) = P (X \ leq 4) = 4/6 = 2/3 $. darüber. Die kumulative Verteilungsfunktion wird auch einfach als Verteilungsfunktion bezeichnet. Die Wahrscheinlichkeitsvariable $ X $, wenn die Variable diskrete Werte wie ein Würfel annimmt, wird als diskrete Wahrscheinlichkeitsvariable bezeichnet, und wenn die Variable kontinuierliche Werte wie Temperatur annimmt, wird sie als kontinuierliche Wahrscheinlichkeitsvariable bezeichnet.
Die $ $ kumulative Verteilungsfunktion $ F_X (x) $ berücksichtigt die kumulative ($ X \ leq x $) Wahrscheinlichkeit, dann aber die (genaue) Wahrscheinlichkeit, dass $ X = x $.
** ・ Diskreter Typ **
f_X(x) = \left\{ \begin{array}{ll}
p(x_i) & (x=x_Wenn ich) \\
0 & (x \notin \Wenn Chi)
\end{array} \right.
Kann ausgedrückt werden als. Ich habe den genauen Ausdruck weggelassen, aber die verwendeten Zeichen entsprechen den Bedeutungen der Zeichen, die bisher erschienen sind. ** ・ Kontinuierlicher Typ ** Im Fall eines kontinuierlichen Typs ist es nicht möglich, die Wahrscheinlichkeit zu berechnen, da nicht nur eine Variable berücksichtigt werden kann. Selbst wenn Sie beispielsweise versuchen, die reelle Zahl 1 auf der geraden Linie der reellen Zahl darzustellen, wird sie auf unbestimmte Zeit als 1,0000000000 fortgesetzt. Berücksichtigen Sie daher die Wahrscheinlichkeit, dass die Variable anstelle eines Punktes eine geringe Breite aufweist. Definition:
Für die kontinuierliche Wahrscheinlichkeitsvariable $ X $ ist
$ F_X (x) = \ \int_{-\infty}^x f_X(t) dt, \ -\infty Wenn die Funktion $ f_X (x) $ vorhanden ist, wird $ f_X (x) $ als ** Wahrscheinlichkeitsdichtefunktion ** bezeichnet.
Wie hoch ist beispielsweise die Wahrscheinlichkeit, dass die morgige Temperatur $ T [℃] $ 22 $ \ leq T \ leq25 $ beträgt? Es ist eine Denkweise. $ F_X (x) $ ist eine kumulative Verteilungsfunktion. Ich denke, Sie werden sich bald an die Ausdrucksdichte gewöhnen. Da es sich natürlich um eine Wahrscheinlichkeit handelt, ist
Zunächst aus der Definition des erwarteten Wertes:
$$ Der erwartete Wert der Funktion $ g (X) $ der Wahrscheinlichkeitsvariablen $ X $ wird durch $ E [g (X)] $ dargestellt.
E[g(X)] = \left{ \begin{array}{ll} \int_{-\infty}^{\infty} g(x)f_X(x) dx& (Wenn X eine kontinuierliche Wahrscheinlichkeitsvariable ist) \ \sum_{x_i \in \chi}g(x_i)f_X(x_i) & (Wenn X eine diskrete Wahrscheinlichkeitsvariable ist) \end{array} \right.
Es wird ausgedrückt als.
$ f_X (x) $ ist die obige stochastische Funktion. Mit anderen Worten, Sie addieren das Produkt aus dem Wert jeder Variablen $ x $ und der Wahrscheinlichkeit, dass dieser Wert auftritt. Der Grund, warum der erwartete Wert wichtig ist, besteht darin, dass der Mittelwert und die Varianz, die die charakteristischen Werte (reduzierte Informationen) der Wahrscheinlichkeitsverteilung sind, auch die erwarteten Werte der Funktion $ g (X) $ einer bestimmten Wahrscheinlichkeitsvariablen $ X $ sind.
·durchschnittlich
Wenn $ g (X) = X $ ist, wird der erwartete Wert von $ X $ $ E [X] $ als Durchschnitt von $ X $ bezeichnet. Es wird ausgedrückt als $ E [X] = \ mu $. Für parallele Bewegung und Skalenwechsel
$$E[aX+b]=aE[X]+b$$
Es wird sein.
· Verteilt
Wenn $ g (X) = (XE [X]) ^ 2 $, wird der erwartete Wert $ E [(X- \ mu) ^ 2] $ als Verteilung von $ X $ und $ V (X) $ oder $ bezeichnet Es wird ausgedrückt als \ sigma ^ 2 $. $ \ Sigma = \ sqrt {V (X)} $ heißt die Standardabweichung von $ X $. Die Varianz stellt den Grad der Streuung der Daten dar, und die Standardabweichung ist diejenige, die einfacher zu berechnen ist, indem eine Dimension entfernt wird. Ich werde den Beweis weglassen, aber die Dispersion ist für parallele Bewegung und Skalenänderung.
$$V[aX+b]=a^2V[X]$$
Es wird sein. Da die Varianz ursprünglich das Quadrat der Abweichung (die Differenz zwischen dem Durchschnittswert und den einzelnen Daten) berücksichtigt, halte ich dies für sinnvoll. Ich denke, Sie können intuitiv verstehen, dass sich der Grad der Streuung nicht ändert, selbst wenn sich die Daten parallel bewegen.
* Die Wahrscheinlichkeitsgenerierungsfunktion, die Produktverhältnisgenerierungsfunktion und die charakteristische Funktion sind wahrscheinlich lang, daher werde ich sie zu einem anderen Zeitpunkt in einem Artikel vorstellen. Wie der Name schon sagt, handelt es sich um eine Funktion, mit der die Wahrscheinlichkeitsfunktion und das Produktverhältnis automatisch ermittelt werden können.
# Lassen Sie uns Python ausführen
Lassen Sie uns nun Python verwenden, um die Wahrscheinlichkeitsdichtefunktion und die kumulative Verteilungsfunktion der Standardnormalverteilung (die im nächsten Kapitel erscheinen wird) zu betrachten.
```python
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm
fig,ax = plt.subplots()
x1 = np.arange(-5,5,0.1)
x2 = np.arange(-5,5,0.01)
y = (np.exp(-x2**2/2)) / np.sqrt(2*np.pi)
Y = norm.cdf(x1,loc=0,scale=1)#Kumulative Verteilungsfunktion der Standardnormalverteilung(cumulative distribution function)Berechnung
c1,c2 = "red","blue"
ax.set_xlabel("x")
ax.set_ylabel("plobability")
plt.grid(True)
plt.plot(x1,Y,color=c1,label=l1)
plt.plot(x2,y,color=c2,label=l2)
plt.show()
Wenn Sie dies tun, sieht es wie in der Abbildung unten aus Das blaue Diagramm ist die Standard-Normalverteilungswahrscheinlichkeitsdichtefunktion $ f_X (x) $, und das rote Diagramm ist die kumulative Verteilungsfunktion $ F_X (x) $. Sie können sehen, dass sich die kumulative Verteilungsfunktion 0 bis 1 nähert.
Dies ist das Ende von Kapitel 2. Vielen Dank.
"Grundlagen der modernen mathematischen Statistik" von Tatsuya Kubogawa
Recommended Posts