[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 2: Wahrscheinlichkeitsverteilung und Erwartungswert

Einführung

Diese Reihe ist eine kurze Erklärung von "The Basics of Modern Mathematical Statistics" von Tatsuya Kubogawa und lässt uns den Inhalt in Python implementieren. Ich habe Google Colaboratory (im Folgenden als Colab bezeichnet) für die Implementierung verwendet. Wenn Sie Vorschläge haben, würde ich mich freuen, wenn Sie diese in den Kommentarbereich schreiben könnten. Es ist möglicherweise nicht für diejenigen geeignet, die den gesamten Inhalt des Buches richtig verstehen möchten, da es so geschrieben ist, dass es schön wäre, wenn es ausgegeben werden könnte, indem nur der Teil berührt wird, von dem ich dachte, dass er einer Erklärung bedarf. Bitte beachten Sie, dass die Zahlen in diesem Artikel möglicherweise übersprungen werden, wenn die Formelnummern und Satz- / Definitionsindizes gemäß dem Buch geschrieben wurden.

Übersicht über Kapitel 2

Zunächst erklären wir die Wahrscheinlichkeitsverteilung in diskreten und kontinuierlichen Typen, indem wir die Wahrscheinlichkeitsvariablen, die wir beiläufig verwenden, streng ausdrücken. Es mag verwirrend sein, ähnliche Wörter zu finden, aber sobald Sie den Inhalt verstanden haben, werden Sie nicht verloren gehen. Als nächstes wird der erwartete Wert definiert und die Varianz, Standardabweichung usw. werden erklärt. Wahrscheinlichkeitsgenerierungsfunktionen, Produktfaktorgenerierungsfunktionen und charakteristische Funktionen sind für Sie möglicherweise neu, aber sie sind wichtige Funktionen, die Ihr Wissen über Statistiken vertiefen. Ich denke, es ist in Ordnung, nur die Idee der endgültigen Variablenkonvertierung zu kennen und sie jedes Mal zu tun, wenn Sie sie benötigen. Ich denke, dass das erste und das zweite Kapitel die Vorbereitungen für das dritte und die folgenden Kapitel sind, und selbst wenn sie im Moment nicht perfekt sind, könnte ich sie beim Lesen verstehen.

Probabilistische Variable

$$ Die Wahrscheinlichkeitsvariable dient nicht dazu, alle Ereignisse zu behandeln, an die Sie denken, sondern die Handhabung zu vereinfachen, indem die unwichtigen Teile weggelassen werden. Nehmen wir zum Beispiel an, Sie wählen zufällig 100 Personen aus und fragen, ob Sie Guppy mögen. Alle Ereignisse $ \ Omega $ bestehen aus $ 2 ^ {100} $ Elementen, was eine individuelle Unterscheidung darstellt. Aber was ich jetzt wissen möchte, ist, wie viele von 100 Menschen Guppy mögen. Alle Ereignisse, bei denen eine Person unterschieden wird $ \ Omega $ ("Personen, die mit" Gefällt mir "geantwortet haben, sind 1 und" Personen, die mit "Nicht mögen" geantwortet haben, sind 0) und die Wahrscheinlichkeitsvariable, wenn Personen nicht unterschieden werden, ist $ X $ Alle Ereignisse (Beispielbereich) $ \ chi $ von $ X $ zu diesem Zeitpunkt sind \Omega={$ {0,0,...,0},{1,0,...,0},...,{1,1,...,1} } $ \chi={0,1,2,...,100}$ $ Sie sehen, dass die ursprüngliche Zahl um Größenordnungen kleiner und einfacher zu handhaben ist. Die stochastische Variable $ X $ ist im Grunde eine Variable, die sich auf einer reellen Geraden bewegt.

Wahrscheinlichkeitsverteilung

Verteilungsfunktion

Definition:

Wenn die kumulative Verteilungsfunktion der stochastischen Variablen $$ $ F_X (x) $ ist, kann sie ausgedrückt werden als $ F_X (x) = P (X \ leq x) $.

Beispiel: Wie hoch ist die Wahrscheinlichkeit, einmal zu würfeln und 4 oder weniger zu bekommen? Antwort: $ F_X (4) = P (X \ leq 4) = 4/6 = 2/3 $. darüber. Die kumulative Verteilungsfunktion wird auch einfach als Verteilungsfunktion bezeichnet. Die Wahrscheinlichkeitsvariable $ X $, wenn die Variable diskrete Werte wie ein Würfel annimmt, wird als diskrete Wahrscheinlichkeitsvariable bezeichnet, und wenn die Variable kontinuierliche Werte wie Temperatur annimmt, wird sie als kontinuierliche Wahrscheinlichkeitsvariable bezeichnet.

Wahrscheinlichkeitsfunktion / Wahrscheinlichkeitsdichtefunktion

Die $ $ kumulative Verteilungsfunktion $ F_X (x) $ berücksichtigt die kumulative ($ X \ leq x $) Wahrscheinlichkeit, dann aber die (genaue) Wahrscheinlichkeit, dass $ X = x $.

** ・ Diskreter Typ ** $ f_X (x) = P (X = x) $ wird als stochastische Funktion bezeichnet. Wenn Sie einen Wert in eine Variable einfügen, wird die Wahrscheinlichkeit berechnet. Für die diskrete Wahrscheinlichkeitsvariable $ X $ gilt die Wahrscheinlichkeitsfunktion $ f_X (x) $

  f_X(x) = \left\{ \begin{array}{ll}
    p(x_i) & (x=x_Wenn ich) \\
    0 & (x \notin \Wenn Chi)
  \end{array} \right.

Kann ausgedrückt werden als. Ich habe den genauen Ausdruck weggelassen, aber die verwendeten Zeichen entsprechen den Bedeutungen der Zeichen, die bisher erschienen sind. ** ・ Kontinuierlicher Typ ** Im Fall eines kontinuierlichen Typs ist es nicht möglich, die Wahrscheinlichkeit zu berechnen, da nicht nur eine Variable berücksichtigt werden kann. Selbst wenn Sie beispielsweise versuchen, die reelle Zahl 1 auf der geraden Linie der reellen Zahl darzustellen, wird sie auf unbestimmte Zeit als 1,0000000000 fortgesetzt. Berücksichtigen Sie daher die Wahrscheinlichkeit, dass die Variable anstelle eines Punktes eine geringe Breite aufweist. Definition:

Für die kontinuierliche Wahrscheinlichkeitsvariable $ X $ ist $ F_X (x) = \ \int_{-\infty}^x f_X(t) dt, \ -\infty Wenn die Funktion $ f_X (x) $ vorhanden ist, wird $ f_X (x) $ als ** Wahrscheinlichkeitsdichtefunktion ** bezeichnet.

Wie hoch ist beispielsweise die Wahrscheinlichkeit, dass die morgige Temperatur $ T [℃] $ 22 $ \ leq T \ leq25 $ beträgt? Es ist eine Denkweise. $ F_X (x) $ ist eine kumulative Verteilungsfunktion. Ich denke, Sie werden sich bald an die Ausdrucksdichte gewöhnen. Da es sich natürlich um eine Wahrscheinlichkeit handelt, ist $ \ int_ {- \ infty} ^ {\ infty} f_X (x) dx = 1 \ tag {2} $. Aus Gleichung (1) können wir sehen, dass $ f_X (x) = \ frac {d} {dx} F_X (x) $. Die Wahrscheinlichkeitsdichtefunktion konvergiert an der Grenze von $ x \ bis ± \ infty $. Dies liegt daran, dass die kumulative Verteilungsfunktion, die der Integralwert der Wahrscheinlichkeitsdichtefunktion ist, gegen 1 konvergiert.

Erwarteter Wert

Zunächst aus der Definition des erwarteten Wertes:

$$ Der erwartete Wert der Funktion $ g (X) $ der Wahrscheinlichkeitsvariablen $ X $ wird durch $ E [g (X)] $ dargestellt.

E[g(X)] = \left{ \begin{array}{ll} \int_{-\infty}^{\infty} g(x)f_X(x) dx& (Wenn X eine kontinuierliche Wahrscheinlichkeitsvariable ist) \ \sum_{x_i \in \chi}g(x_i)f_X(x_i) & (Wenn X eine diskrete Wahrscheinlichkeitsvariable ist) \end{array} \right.

 Es wird ausgedrückt als.

 $ f_X (x) $ ist die obige stochastische Funktion. Mit anderen Worten, Sie addieren das Produkt aus dem Wert jeder Variablen $ x $ und der Wahrscheinlichkeit, dass dieser Wert auftritt. Der Grund, warum der erwartete Wert wichtig ist, besteht darin, dass der Mittelwert und die Varianz, die die charakteristischen Werte (reduzierte Informationen) der Wahrscheinlichkeitsverteilung sind, auch die erwarteten Werte der Funktion $ g (X) $ einer bestimmten Wahrscheinlichkeitsvariablen $ X $ sind.

 ·durchschnittlich
 Wenn $ g (X) = X $ ist, wird der erwartete Wert von $ X $ $ E [X] $ als Durchschnitt von $ X $ bezeichnet. Es wird ausgedrückt als $ E [X] = \ mu $. Für parallele Bewegung und Skalenwechsel
$$E[aX+b]=aE[X]+b$$
 Es wird sein.

 · Verteilt
 Wenn $ g (X) = (XE [X]) ^ 2 $, wird der erwartete Wert $ E [(X- \ mu) ^ 2] $ als Verteilung von $ X $ und $ V (X) $ oder $ bezeichnet Es wird ausgedrückt als \ sigma ^ 2 $. $ \ Sigma = \ sqrt {V (X)} $ heißt die Standardabweichung von $ X $. Die Varianz stellt den Grad der Streuung der Daten dar, und die Standardabweichung ist diejenige, die einfacher zu berechnen ist, indem eine Dimension entfernt wird. Ich werde den Beweis weglassen, aber die Dispersion ist für parallele Bewegung und Skalenänderung.
$$V[aX+b]=a^2V[X]$$
 Es wird sein. Da die Varianz ursprünglich das Quadrat der Abweichung (die Differenz zwischen dem Durchschnittswert und den einzelnen Daten) berücksichtigt, halte ich dies für sinnvoll. Ich denke, Sie können intuitiv verstehen, dass sich der Grad der Streuung nicht ändert, selbst wenn sich die Daten parallel bewegen.

 * Die Wahrscheinlichkeitsgenerierungsfunktion, die Produktverhältnisgenerierungsfunktion und die charakteristische Funktion sind wahrscheinlich lang, daher werde ich sie zu einem anderen Zeitpunkt in einem Artikel vorstellen. Wie der Name schon sagt, handelt es sich um eine Funktion, mit der die Wahrscheinlichkeitsfunktion und das Produktverhältnis automatisch ermittelt werden können.

# Lassen Sie uns Python ausführen
 Lassen Sie uns nun Python verwenden, um die Wahrscheinlichkeitsdichtefunktion und die kumulative Verteilungsfunktion der Standardnormalverteilung (die im nächsten Kapitel erscheinen wird) zu betrachten.

```python
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm 

fig,ax = plt.subplots() 

x1 = np.arange(-5,5,0.1)
x2 = np.arange(-5,5,0.01)
y = (np.exp(-x2**2/2)) / np.sqrt(2*np.pi)
Y = norm.cdf(x1,loc=0,scale=1)#Kumulative Verteilungsfunktion der Standardnormalverteilung(cumulative distribution function)Berechnung

c1,c2 = "red","blue"

ax.set_xlabel("x")
ax.set_ylabel("plobability")
plt.grid(True)
plt.plot(x1,Y,color=c1,label=l1)
plt.plot(x2,y,color=c2,label=l2)
plt.show()

Wenn Sie dies tun, sieht es wie in der Abbildung unten aus image.png Das blaue Diagramm ist die Standard-Normalverteilungswahrscheinlichkeitsdichtefunktion $ f_X (x) $, und das rote Diagramm ist die kumulative Verteilungsfunktion $ F_X (x) $. Sie können sehen, dass sich die kumulative Verteilungsfunktion 0 bis 1 nähert.

Dies ist das Ende von Kapitel 2. Vielen Dank.

Verweise

"Grundlagen der modernen mathematischen Statistik" von Tatsuya Kubogawa

Recommended Posts

[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 2: Wahrscheinlichkeitsverteilung und Erwartungswert
[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 3: Typische Wahrscheinlichkeitsverteilung
[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 1: Wahrscheinlichkeit
[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 2: Wahrscheinlichkeitsverteilung und Erwartungswert
Sequentielle Berechnung des Durchschnittswertes mit Online-Algorithmus
Berechnung der gegenseitigen Informationsmenge (kontinuierlicher Wert) mit numpy
1. Mit Python gelernte Statistiken 2. Wahrscheinlichkeitsverteilung [Gründliches Verständnis von scipy.stats]
[Einführung in Datenwissenschaftler] Grundlagen der Wahrscheinlichkeit und Statistik ♬ Wahrscheinlichkeits- / Wahrscheinlichkeitsvariable und Wahrscheinlichkeitsverteilung
1. Mit Python 2-1 gelernte Statistiken. Wahrscheinlichkeitsverteilung [diskrete Variable]
[Python of Hikari-] Kapitel 06-02 Funktion (Argument und Rückgabewert 1)
Erste Schritte mit Python Grundlagen von Python
Koexistenz von Python2 und 3 mit CircleCI (1.0)
Grundlagen der binärisierten Bildverarbeitung durch Python
1. Mit Python 1-3 gelernte Statistiken. Berechnung verschiedener Statistiken (Statistiken)
Rehabilitation von Python- und NLP-Kenntnissen ab "100 Language Processing Knock 2015" (Kapitel 1)
[Python] Kapitel 02-04 Grundlagen des Python-Programms (Informationen zu Kommentaren)
[Python] Kapitel 02-03 Grundlagen von Python-Programmen (Eingabe / Ausgabe)
Deep Learning von Grund auf neu Die Theorie und Implementierung des mit Python erlernten Deep Learning Kapitel 3
Liste der wichtigsten Wahrscheinlichkeitsverteilungen, die beim maschinellen Lernen und in der Statistik verwendet werden, sowie Code in Python
[Python of Hikari-] Kapitel 05-06 Steuerungssyntax (Grundlagen der Einschlussnotation)
1. Mit Python 1-2 gelernte Statistiken. Berechnung verschiedener Statistiken (Numpy)
Konzept des Bayes'schen Denkens (2) ... Bayes'sche Schätzung und Wahrscheinlichkeitsverteilung
TRIE-Baumimplementierung mit Python und LOUDS
[Python] Kapitel 02-02 Grundlagen von Python-Programmen (Umgang mit Zeichenketten)
[Hikari-Python] Kapitel 09-01 Klassen (Grundlagen von Objekten)
[Python] Kapitel 02-05 Grundlagen von Python-Programmen (Zeichenfolgenoperationen / -methoden)
Fortsetzung der Multi-Plattform-Entwicklung mit Electron und Python
Beispiel für das Lesen und Schreiben von CSV mit Python
Statistik mit Python
Python-Grundlagen ①
Grundlagen von Python ①
Rehabilitation von Python- und NLP-Kenntnissen ab "100 Language Processing Knock 2015" (Kapitel 2, erste Hälfte)
[Python] Kapitel 02-06 <Zusatz> Grundlagen von Python-Programmen (Umgang mit numerischen Werten)
[Python of Hikari-] Kapitel 06-04 Funktionen (Argumente und Rückgabewerte 3)
Laden Sie mp4 einfach teilweise mit Python und youtube-dl herunter!
[Kapitel 5] Einführung in Python mit 100 Klopfen Sprachverarbeitung
Visualisieren Sie den Bereich der internen und externen Einfügungen mit Python
LiNGAM (ICA-Version) mit mathematischen Formeln und Python zu verstehen
[Kapitel 3] Einführung in Python mit 100 Klopfen Sprachverarbeitung
[Kapitel 2] Einführung in Python mit 100 Klopfen Sprachverarbeitung
[Python of Hikari-] Kapitel 06-03 Funktionen (Argumente und Rückgabewerte 2)
[Grundlagen der Datenwissenschaft] Sammeln von Daten aus RSS mit Python
Überprüfen Sie die atrophische Natur der Wahrscheinlichkeitsverteilung in Python
[Python] Kapitel 01-02 Über Python (Ausführung und Installation der Entwicklungsumgebung)
Vergleich von CoffeeScript mit JavaScript-, Python- und Ruby-Grammatik
Versionsverwaltung von Node, Ruby und Python mit anyenv
[Kapitel 4] Einführung in Python mit 100 Klopfen Sprachverarbeitung
"Zeitreihenanalyse von Wirtschafts- und Finanzdaten messen" Das Problem am Ende des Kapitels mit Python lösen
Grundlagen der Python-Scraping-Grundlagen
Grundlagen von Python: Ausgabe
[Python of Hikari-] Kapitel 08-03 Modul (Import und Verwendung der Standardbibliothek)
[Hikari-Python] Kapitel 05-10 Steuerungssyntax (Unterbrechung und Fortsetzung der iterativen Verarbeitung)
Befreien Sie sich mit Python und regulären Ausdrücken von schmutzigen Daten
Erkennen Sie mit Python Objekte einer bestimmten Farbe und Größe
[Einführung in Data Scientists] Grundlagen von Python ♬ Funktionen und Klassen
Beispiel für das Parsen von HTTP GET und JSON mit Pfefferpython
[Golang] Grundlagen der Go-Sprache Über Wertempfänger und Zeigerempfänger
Spielen Sie mit dem Passwortmechanismus von GitHub Webhook und Python