[PYTHON] [Statistikübersicht] Vier Regeln für stochastische Variablen

Einführung

Nachdem ich begonnen habe, ** Statistiken ** zu überprüfen, möchte ich meine eigene Interpretation als Memorandum zusammenfassen. Dieses Mal werde ich die grundlegendsten ** vier Regeln stochastischer Variablen ** in der Statistik zusammenfassen und in Zukunft ** Schätzung, Test, multivariate Analyse und Bayes'sche Statistik ** zusammenfassen. Ich werde versuchen, für diejenigen hilfreich zu sein, die die Statistiken überprüfen möchten, und für diejenigen, die ihr Verständnis der Statistiken überprüfen möchten.

Was ist eine geschätzte Statistik?

Was ist eine geschätzte Statistik überhaupt? Eine berühmte Anekdote über geschätzte Statistiken ist die Geschichte von ** Poancare und Baker **.

Die Anekdote ist wie folgt. Poancare ist eine bekannte Bäckerei und kaufte oft 1000 g schweres Brot. Poancare, der das Gefühl hatte, dass das Gewicht betrogen wurde, beschloss jedoch, das Brot, das er jedes Mal kaufte, zu wiegen. Ein Jahr später bestätigte Poancare, dass das Brot, das er bisher gekauft hatte, eine durchschnittliche Verteilung von durchschnittlich 950 g hatte, und fand den Betrug heraus.

Wie viel Brot musste Poancare tatsächlich kaufen, um den Betrug in der Bäckerei aufzudecken? Anhand der statistischen Segmentschätzung können wir sehen, dass ** der Kauf von etwa 70 Stück Brot zu 99,98% sicher ist, dass die Bäckerei betrügt ** (ziemlich vorsichtig). * Genau genommen ist es notwendig, die Anzahl der Proben im Voraus zu bestimmen, um eine künstliche Probenahme zu vermeiden.

imagedraw (1).gif

Vier Regeln in der Statistik

Bevor wir plötzlich zur Intervallschätzung der Statistik übergehen, müssen wir die Formel der vier Betriebsregeln in der Statistik verstehen. Wir leiten die Formel ab, aber wenn sie problematisch ist, können Sie sie bis zu einem gewissen Grad verstehen, indem Sie nur die Ergebnisse und Kommentare überprüfen.

Definieren Sie der Einfachheit halber die folgenden Symbole und Formeln. Der Einfachheit halber nehmen wir auch an, dass das Gewicht des Brotes ein diskreter Wert ist, der nur ganzzahlige Werte annimmt. Bei stetigen Werten (reellen Zahlen) setzen Sie einfach $ \ sum_ {} $ auf $ \ int $.

** Definition von Symbolen und Formeln ** </ font> ・ $ X = (x_1, x_2, x_3 ・ ・ x_n): $ ** Wahrscheinlichkeitsvariable ** (Werte, die das Gewicht von Brot annehmen können, z. B. 900 g, 901 g, 902 g, 1000 g, 1001 g, 1002 g usw.)

・ $ F (x): $ ** Wahrscheinlichkeitsfunktion ** (Wahrscheinlichkeit, dass das Gewicht des Brotes x beträgt, z. B. f (900 g) = 0,005, f (1000 g) = 0,1 usw.)

・ $ E (X) = \ sum_ {k} x_ {k} f (x_k) = μ_X: $ ** Erwarteter Wert der Wahrscheinlichkeitsvariablen $ X $ ** ($ \ sum $ Pan-Gewicht x Gewicht dieses Gewichts Wahrscheinlichkeit des Auftretens von Brot)

・ $ V (X) = \ sum_ {k} (x_k-μ_X) ^ 2f (x_k): $ ** Verteilung der Wahrscheinlichkeitsvariablen $ X $ ** ($ \ sum $ (Brotgewicht-Gesamtbrot) Durchschnittsgewicht) $ ^ 2 $ × Wahrscheinlichkeit des Auftretens von Brot dieses Gewichts)

Bei der Ableitung der vier Regeln für den erwarteten Wert und die Varianz stochastischer Variablen gehen wir davon aus, dass ** probabilistische Variablen $ X $ und $ Y $ ** unabhängig voneinander sind. Die Tatsache, dass X und Y unabhängig voneinander sind, bedeutet, dass $ f (x_i, y_j) = f (x_i) × f (y_j) $ gilt und es keine Beziehung zwischen der Wahrscheinlichkeit von $ x_i $ und der Wahrscheinlichkeit von $ y_i $ gibt. ..

** ➀ Erwarteter Wert der "Wahrscheinlichkeitsvariablen $ X $ + Wahrscheinlichkeitsvariable $ Y $" ** </ font> Ermitteln Sie den erwarteten Wert der Wahrscheinlichkeitsvariablen $ X + Y $, indem Sie die Wahrscheinlichkeitsvariable $ Y $ zur Wahrscheinlichkeitsvariablen $ X $ hinzufügen.

\begin{align}
E(X+Y)&=\sum_{j,k}(x_j+y_k)f(x_j,y_k)\\
&=\sum_{j,k}x_jf(x_j,y_k)+\sum_{j,k}y_kf(x_j,y_k)\\
&=\sum_{j}x_jf(x_j)\sum_{k}f(y_k)+\sum_{k}y_kf(y_k)\sum_{j}f(x_j)\\
&=\sum_{j}x_jf(x_j)+\sum_{k}y_kf(y_k)\\
&=E(X)+E(Y)
\end{align}

Die Formel in der dritten Zeile heißt die periphere Wahrscheinlichkeit von $ X $ und $ Y $ (die Wahrscheinlichkeit, die Auswirkungen von $ X $ bzw. $ Y $ zu eliminieren). Am Ende war der erwartete Wert der Wahrscheinlichkeitsvariablen $ X + Y $ nur die Summe der erwarteten Werte von $ X $ und $ Y $. Die Subtraktion ändert nur das Vorzeichen.

** ➁ Erwarteter Wert der "Wahrscheinlichkeitsvariablen $ X $ x Wahrscheinlichkeitsvariable $ Y $" ** </ font> Finden Sie den erwarteten Wert der Wahrscheinlichkeitsvariablen $ X × Y $, die das Produkt der Wahrscheinlichkeitsvariablen $ X $ und der Wahrscheinlichkeitsvariablen $ Y $ ist. Was die Bedeutung von $ \ sum_ {j, k} $ betrifft, ist es leicht, das Bild wie eine vollständige Suche zu verstehen, die Werte in allen möglichen $ j $ und $ k $ hinzufügt.

\begin{align}
E(X×Y)=&\sum_{j,k}\bigl(x_jy_kf(x_j,y_k)\bigr)\\

=&\sum_{j}x_jf(x_j)\sum_{k}y_kf(y_k)\\
=&E(X)E(Y)
\end{align}

Der erwartete Wert der stochastischen Variablen $ X × Y $ ist jetzt nur das Produkt der erwarteten Werte der stochastischen Variablen $ X $ und $ Y $. Für die Division können Sie die Wahrscheinlichkeitsvariable $ 1 / Y $ anstelle von $ Y $ verwenden.

** ➂ Erwarteter Wert der "Wahrscheinlichkeitsvariablen $ X $ x Konstante $ a $" ** </ font> Multiplizieren Sie die stochastische Variable $ X $ mit der Konstante a, um den erwarteten Wert der stochastischen Variablen $ a × X $ zu ermitteln.

\begin{align}
E(a×X)&=\sum_{j}\bigl(a(x_j)f(x_j)\bigr)\\
&=ax_1f(x_1)+ax_2f(x_2)・ ・ ・\\
&=aE(X)
\end{align}

Die Formel wird nur mit einer Konstanten multipliziert. Durch Teilen wird die Konstante $ a $ nur in $ 1 / a $ umgewandelt.

** ➃ "Wahrscheinlichkeitsvariable $ X $ + Wahrscheinlichkeitsvariable $ Y $" Verteilung ** </ font> Finden Sie die Varianz der stochastischen Variablen $ X + Y $, die die Summe der stochastischen Variablen $ X $ und der stochastischen Variablen $ Y $ ist. Der Einfachheit halber wird der erwartete Wert der Wahrscheinlichkeitsvariablen $ X $ ausgedrückt als $ E (X) = μ_ {X} $.

\begin{align}
V(X+Y)=&\sum_{j,k}\bigl(x_j+y_k-(μ_X+μ_Y)\bigr)^2f(x_j,y_k)\\
=&\sum_{j,k}\bigl(x_j^2+y_k^2+μ_X^2+μ_Y^2+2x_jy_k-2x_jμ_X-2x_jμ_Y-2y_kμ_X-2y_kμ_Y+2μ_Xμ_Y\bigr)f(x_j,y_k)\\
=&\sum_{j,k}\bigl(x_j-μ_X\bigr)^2f(x_j,y_k)+\sum_{j,k}\bigl(y_k-μ_Y\bigr)^2f(x_j,y_k)+2\sum_{j,k}\bigl(x_j-μ_X\bigr)\bigl(y_k-μ_Y\bigr)f(x_j,y_k)\\
=&\sum_{j}\bigl(x_j-μ_X\bigr)^2f(x_j)+\sum_{k}\bigl(y_k-μ_Y\bigr)^2f(y_k)+2\sum_{j}\bigl(x_j-μ_X\bigr)f(x_j)\sum_{k}\bigl(y_k-μ_Y\bigr)f(y_k)\\
=&V(X)+V(Y)
\end{align}

Die Varianz der stochastischen Variablen $ X + Y $ ist nur die Summe der Varianzen der stochastischen Variablen $ X $ und $ Y $. Übrigens ist das dritte Element in der dritten Zeile eine Statistik namens Kovarianz, die die Korrelation zwischen $ X $ und $ Y $ zeigt. Wenn $ X $ und $ Y $ nicht unabhängig sind, ist sie nicht 0, berücksichtigen Sie also die Varianz. Sie müssen es tun.

** ➄ Verteilung der "Wahrscheinlichkeitsvariablen $ X $ x Wahrscheinlichkeitsvariable $ Y $" ** </ font> Multiplizieren Sie die stochastische Variable $ X $ mit der stochastischen Variablen $ Y $, um die Varianz der stochastischen Variablen $ X $ × $ Y $ zu ermitteln.

\begin{align}
V(X×Y)=&\sum_{j,k}\bigl(x_jy_k-μ_Xμ_Y\bigr)^2f(x_j,y_k)\\
=&\sum_{j,k}\bigl((x_jy_k)^2-2x_jy_kμ_Xμ_Y+(μ_Xμ_Y)^2\bigr)f(x_j,y_k)\\
=&\sum_{j,k}(x_jy_k)^2f(x_j,y_k)-μ_Xμ_Y\sum_{j,k}2x_jy_kf(x_j,y_k)+(μ_Xμ_Y)^2\\
=&\sum_{j,k}(x_jy_k)^2f(x_j,y_k)-2(μ_Xμ_Y)^2+(μ_Xμ_Y)^2\\
=&\sum_{j}x_j^2f(x_j)\sum_{k}y_k^2f(y_k)-(μ_Xμ_Y)^2 \\
=&E(X^2)E(Y^2)-(μ_Xμ_Y)^2\\
=&\bigl(V(X)+μ_X^2\bigr)\bigl(V(Y)+μ_Y^2\bigr)-(μ_Xμ_Y)^2 ※V(X)=\sum_{k}(x_k-μ_X)^2f(x_k)=E(X^2)-μ_X^2\\
=&V(X)V(Y)+μ_Y^2V(X)+μ_X^2V(Y)
\end{align}

Die Varianz der stochastischen Variablen $ X × Y $ beträgt $ V (X) V (Y) + μ_Y ^ 2 V (X) + μ_X ^ 2V (Y) unter Verwendung der erwarteten Werte und Varianzen der stochastischen Variablen $ X $ und $ Y $. ) $. Bitte beachten Sie, dass es nicht einfach $ V (X × Y) = V (X) V (Y) $ wie der erwartete Wert ist.

** ➅ Verteilung der "Wahrscheinlichkeitsvariablen $ X $ x Konstante $ a $" ** </ font> Berechnen Sie die Varianz der Wahrscheinlichkeitsvariablen $ a × X $, indem Sie die Wahrscheinlichkeitsvariable $ X $ mit der Konstanten a multiplizieren.

\begin{align}
V(a×X)=&\sum_{j}(ax_j-μ_{ax})^2f(x_j)\\
=&(ax_1-aμ_x)^2+(ax_2-aμ_x)^2+(ax_3-aμ_x)^2+・ ・ ・\\
=&a^2\sum_{j}(x_j-μ_{x})^2f(x_j)\\
=&a^2V(X)
\end{align}

Beachten Sie, dass das Multiplizieren der Wahrscheinlichkeitsvariablen mit $ a $ die Varianz mit $ a ^ 2 $ multipliziert.

nächstes Mal

Das nächste Mal werde ich daran arbeiten, die Verteilung der Pfannengewichte wie in der Abbildung zu Beginn gezeigt zu schätzen, wobei ich die Formel der vier diesmal abgeleiteten Statistikregeln verwende.

Referenz

Grundlagen der statistischen Analyse, verstanden von Python Wahrscheinlichkeitsverteilung der mit Python erlernten statistischen Teststufe 2 Erklärung der Unparteilichkeit und Beständigkeit für diejenigen, die sich nicht verlieben [Statistik] t-Verteilung, Zahlengesetz, Zentralpolbegrenzung