[PYTHON] [Revue statistique] Quatre règles de variables stochastiques

introduction

Maintenant que j'ai commencé à passer en revue les ** statistiques **, je voudrais résumer ma propre interprétation dans un mémorandum. Cette fois, je résumerai l'opération la plus élémentaire ** à quatre règles des variables stochastiques ** dans les statistiques, et à l'avenir, je résumerai ** l'estimation, les tests, l'analyse multivariée et les statistiques bayésiennes **. J'essaierai d'être utile à ceux qui veulent examiner les statistiques et à ceux qui veulent vérifier leur compréhension des statistiques.

Qu'est-ce que les statistiques estimées?

Qu'est-ce que les statistiques estimées en premier lieu? Une anecdote célèbre sur les statistiques estimées est l'histoire de ** Poancare et Baker **.

L'anecdote est la suivante. Poancare est une boulangerie familière, et il achetait souvent du pain pesant 1000g. Cependant, Poancare, qui a estimé que le poids était trompé, a décidé de peser le pain qu'il achetait à chaque fois. Un an plus tard, Poancare a confirmé que le pain qu'il avait acheté jusqu'à présent avait une distribution normale de 950 g en moyenne et a découvert la fraude.

Maintenant, combien de pain Poancare avait-il réellement besoin d'acheter pour détecter la fraude dans la boulangerie? En utilisant une estimation statistique des segments, nous pouvons voir que ** acheter environ 70 morceaux de pain est une certitude à 99,98% que la boulangerie triche ** (assez prudent). * À proprement parler, il est nécessaire de déterminer à l'avance le nombre d'échantillons afin d'éviter de rendre le prélèvement artificiel.

imagedraw (1).gif

Quatre règles en statistique

Avant de passer brusquement à l'estimation par intervalles des statistiques, nous devons comprendre ** la formule des quatre règles de fonctionnement en statistique **. Nous dérivons la formule, mais si elle est gênante, vous pouvez la comprendre dans une certaine mesure en ne vérifiant que les résultats et les commentaires.

Pour plus de commodité, définissez les symboles et formules suivants. Aussi, par souci de simplicité, nous supposerons que le poids du pan est une valeur discrète qui ne prend qu'une valeur entière, mais dans le cas d'une valeur continue (nombre réel), il suffit de définir $ \ sum_ {} $ à $ \ int $.

** Définition des symboles et des formules ** </ font> ・ $ X = (x_1, x_2, x_3 ・ ・ ・ x_n): $ ** Variable de probabilité ** (valeurs pouvant prendre le poids du pain, par exemple 900g, 901g, 902g ・ ・ ・ 1000g, 1001g, 1002g, etc.)

・ $ F (x): $ ** Fonction de probabilité ** (Probabilité que le poids du pain soit x, par exemple, f (900g) = 0,005, f (1000g) = 0,1, etc.)

・ $ E (X) = \ sum_ {k} x_ {k} f (x_k) = μ_X: $ ** Valeur attendue de la variable de probabilité $ X $ ** ($ \ sum $ Pan poids x poids de ce poids Probabilité d'apparence du pain)

・ $ V (X) = \ sum_ {k} (x_k-μ_X) ^ 2f (x_k): $ ** Distribution de la variable de probabilité $ X $ ** ($ \ sum $ (poids du pain-du pain entier) Poids moyen) $ ^ 2 $ × Probabilité d'apparition de pain de ce poids)

En dérivant les quatre règles des valeurs attendues et des variances des variables stochastiques, nous supposerons des ** variables probabilistes $ X $ et $ Y $ ** qui sont indépendantes l'une de l'autre. Le fait que X et Y soient indépendants l'un de l'autre signifie que $ f (x_i, y_j) = f (x_i) × f (y_j) $ est valable, et il n'y a pas de relation entre la probabilité de $ x_i $ et la probabilité de $ y_i $. ..

** ➀ Valeur attendue de la "variable de probabilité $ X $ + variable probabiliste $ Y $" ** </ font> Trouvez la valeur attendue de la variable de probabilité $ X + Y $ en ajoutant la variable de probabilité $ Y $ à la variable de probabilité $ X $.

\begin{align}
E(X+Y)&=\sum_{j,k}(x_j+y_k)f(x_j,y_k)\\
&=\sum_{j,k}x_jf(x_j,y_k)+\sum_{j,k}y_kf(x_j,y_k)\\
&=\sum_{j}x_jf(x_j)\sum_{k}f(y_k)+\sum_{k}y_kf(y_k)\sum_{j}f(x_j)\\
&=\sum_{j}x_jf(x_j)+\sum_{k}y_kf(y_k)\\
&=E(X)+E(Y)
\end{align}

La formule sur la troisième ligne est appelée la probabilité périphérique de $ X $ et $ Y $ (la probabilité d'éliminer les effets de $ X $ et $ Y $, respectivement). En fin de compte, la valeur attendue de la variable de probabilité $ X + Y $ n'était que la somme des valeurs attendues de $ X $ et $ Y $. La soustraction ne change que le signe.

** ➁ Valeur attendue de la "variable de probabilité $ X $ x variable probabiliste $ Y $" ** </ font> Trouvez la valeur attendue de la variable de probabilité $ X × Y $, qui est le produit de la variable de probabilité $ X $ et de la variable de probabilité $ Y $. Quant à la signification de $ \ sum_ {j, k} $, il est facile de comprendre l'image comme une recherche complète qui ajoute des valeurs dans tous les $ j $ et $ k $ possibles.

\begin{align}
E(X×Y)=&\sum_{j,k}\bigl(x_jy_kf(x_j,y_k)\bigr)\\

=&\sum_{j}x_jf(x_j)\sum_{k}y_kf(y_k)\\
=&E(X)E(Y)
\end{align}

La valeur attendue de la variable stochastique $ X × Y $ n'est plus que le produit des valeurs attendues des variables stochastiques $ X $ et $ Y $. Pour la division, vous pouvez utiliser la variable de probabilité $ 1 / Y $ au lieu de $ Y $.

** ➂ Valeur attendue de la "variable de probabilité $ X $ x constante $ a $" ** </ font> Multipliez la variable stochastique $ X $ par la constante a pour trouver la valeur attendue de la variable stochastique $ a × X $.

\begin{align}
E(a×X)&=\sum_{j}\bigl(a(x_j)f(x_j)\bigr)\\
&=ax_1f(x_1)+ax_2f(x_2)・ ・ ・\\
&=aE(X)
\end{align}

La formule est simplement multipliée par une constante. La division ne fait que transformer la constante $ a $ en $ 1 / a $.

** ➃ Distribution "Variable de probabilité $ X $ + Variable de probabilité $ Y $" ** </ font> Trouvez la variance de la variable stochastique $ X + Y $, qui est la somme de la variable stochastique $ X $ et de la variable stochastique $ Y $. Par commodité, la valeur attendue de la variable de probabilité $ X $ est exprimée comme $ E (X) = μ_ {X} $.

\begin{align}
V(X+Y)=&\sum_{j,k}\bigl(x_j+y_k-(μ_X+μ_Y)\bigr)^2f(x_j,y_k)\\
=&\sum_{j,k}\bigl(x_j^2+y_k^2+μ_X^2+μ_Y^2+2x_jy_k-2x_jμ_X-2x_jμ_Y-2y_kμ_X-2y_kμ_Y+2μ_Xμ_Y\bigr)f(x_j,y_k)\\
=&\sum_{j,k}\bigl(x_j-μ_X\bigr)^2f(x_j,y_k)+\sum_{j,k}\bigl(y_k-μ_Y\bigr)^2f(x_j,y_k)+2\sum_{j,k}\bigl(x_j-μ_X\bigr)\bigl(y_k-μ_Y\bigr)f(x_j,y_k)\\
=&\sum_{j}\bigl(x_j-μ_X\bigr)^2f(x_j)+\sum_{k}\bigl(y_k-μ_Y\bigr)^2f(y_k)+2\sum_{j}\bigl(x_j-μ_X\bigr)f(x_j)\sum_{k}\bigl(y_k-μ_Y\bigr)f(y_k)\\
=&V(X)+V(Y)
\end{align}

La variance de la variable stochastique $ X + Y $ est simplement la somme des variances des variables stochastiques $ X $ et $ Y $. À propos, le troisième élément de la troisième ligne est une statistique appelée covariance qui montre la corrélation entre $ X $ et $ Y $, et si $ X $ et $ Y $ ne sont pas indépendants, ce ne sera pas 0, alors considérez la variance. Vous devrez le faire.

** ➄ Distribution de la "variable de probabilité $ X $ x variable probabiliste $ Y $" ** </ font> Multipliez la variable stochastique $ X $ par la variable stochastique $ Y $ pour trouver la variance de la variable stochastique $ X $ × $ Y $.

\begin{align}
V(X×Y)=&\sum_{j,k}\bigl(x_jy_k-μ_Xμ_Y\bigr)^2f(x_j,y_k)\\
=&\sum_{j,k}\bigl((x_jy_k)^2-2x_jy_kμ_Xμ_Y+(μ_Xμ_Y)^2\bigr)f(x_j,y_k)\\
=&\sum_{j,k}(x_jy_k)^2f(x_j,y_k)-μ_Xμ_Y\sum_{j,k}2x_jy_kf(x_j,y_k)+(μ_Xμ_Y)^2\\
=&\sum_{j,k}(x_jy_k)^2f(x_j,y_k)-2(μ_Xμ_Y)^2+(μ_Xμ_Y)^2\\
=&\sum_{j}x_j^2f(x_j)\sum_{k}y_k^2f(y_k)-(μ_Xμ_Y)^2 \\
=&E(X^2)E(Y^2)-(μ_Xμ_Y)^2\\
=&\bigl(V(X)+μ_X^2\bigr)\bigl(V(Y)+μ_Y^2\bigr)-(μ_Xμ_Y)^2 ※V(X)=\sum_{k}(x_k-μ_X)^2f(x_k)=E(X^2)-μ_X^2\\
=&V(X)V(Y)+μ_Y^2V(X)+μ_X^2V(Y)
\end{align}

La variance de la variable stochastique $ X × Y $ est $ V (X) V (Y) + μ_Y ^ 2 V (X) + μ_X ^ 2V (Y) en utilisant les valeurs attendues et les variances des variables stochastiques $ X $ et $ Y $. ) $. Veuillez noter qu'il ne s'agit pas simplement de $ V (X × Y) = V (X) V (Y) $ comme la valeur attendue.

** ➅ Distribution de la "variable de probabilité $ X $ x constante $ a $" ** </ font> Calculez la variance de la variable de probabilité $ a × X $ en multipliant la variable de probabilité $ X $ par la constante a.

\begin{align}
V(a×X)=&\sum_{j}(ax_j-μ_{ax})^2f(x_j)\\
=&(ax_1-aμ_x)^2+(ax_2-aμ_x)^2+(ax_3-aμ_x)^2+・ ・ ・\\
=&a^2\sum_{j}(x_j-μ_{x})^2f(x_j)\\
=&a^2V(X)
\end{align}

Notez que multiplier la variable de probabilité par $ a $ multipliera la variance par $ a ^ 2 $.

la prochaine fois

La prochaine fois, je travaillerai sur l'estimation réelle de la distribution des poids de casserole comme le montre la figure au début, en utilisant la formule des quatre règles de statistiques dérivées cette fois.

référence

Bases de l'analyse statistique comprises par Python Distribution de probabilité du test statistique niveau 2 appris avec Python ① Explication d'impartialité et de cohérence pour ceux qui ne tombent pas amoureux [Statistics] t-distribution, loi de la numérologie, qualification du pôle central