[Bases des statistiques mathématiques modernes avec python] Chapitre 2: Distribution des probabilités et valeur attendue

introduction

Cette série est une brève explication de "Les bases des statistiques mathématiques modernes" par Tatsuya Kubogawa, et implémentons le contenu en python. J'ai utilisé Google Colaboratory (ci-après dénommé Colab) pour la mise en œuvre. Si vous avez des suggestions, je vous serais reconnaissant de bien vouloir les écrire dans la section des commentaires. Il peut ne pas convenir à ceux qui veulent bien comprendre tout le contenu du livre car il est écrit avec une position qu'il serait bien qu'il puisse être produit en ne touchant que la partie qui, à mon avis, nécessitait une explication. Veuillez noter que si les numéros de formule et les index de proposition / définition sont écrits selon le livre, les numéros peuvent être ignorés dans cet article.

Aperçu du chapitre 2

Premièrement, nous expliquons la distribution de probabilité dans les types discrets et continus en exprimant strictement les variables de probabilité que nous utilisons avec désinvolture. Il peut être déroutant de trouver des mots similaires, mais une fois que vous aurez compris le contenu, vous ne vous perdrez pas. Ensuite, la valeur attendue est définie et la variance, l'écart type, etc. sont expliqués. Les fonctions de génération de probabilités, les fonctions de génération de facteurs de produit et les fonctions caractéristiques peuvent être nouvelles pour vous, mais ce sont des fonctions importantes qui approfondiront vos connaissances en statistiques. Je pense qu'il est normal de ne connaître que l'idée de la conversion finale des variables et de le faire chaque fois que vous en avez besoin. Je pense que les premier et deuxième chapitres sont les préparatifs du troisième et des suivants, et même s'ils ne sont pas parfaits pour le moment, je pourrais les comprendre en lisant.

Variable de probabilité

$$ La variable de probabilité n'est pas de gérer tous les événements auxquels vous pensez, mais de le rendre plus facile à gérer en omettant les parties sans importance. Par exemple, disons que vous sélectionnez au hasard 100 personnes et demandez si vous aimez Guppy. Tous les événements $ \ Omega $ se composent de $ 2 ^ {100} $ éléments, ce qui est une distinction individuelle. Mais ce que je veux savoir maintenant, c'est combien de personnes sur 100 aiment Guppy. Tous les événements où l'individu est distingué $ \ Omega $ («Les personnes qui ont répondu comme» est égal à 1 et «Les personnes qui ont répondu n'aiment pas» est 0) et la variable probabiliste lorsque les individus ne sont pas distingués est $ X $ Tous les événements (espace échantillon) $ \ chi $ de $ X $ à ce moment sont \Omega={$ {0,0,...,0},{1,0,...,0},...,{1,1,...,1} } $ \chi={0,1,2,...,100}$ $ Vous pouvez voir que le nombre d'origine est d'un ordre de grandeur plus petit et plus facile à manipuler. La variable stochastique $ X $ est essentiellement une variable qui se déplace sur une vraie ligne droite.

Distribution de probabilité

Fonction de distribution cumulative

Définition:

Si la fonction de distribution cumulative de la variable de probabilité $$ est $ F_X (x) , elle peut être exprimée par $ F_X (x) = P (X \ leq x) $$.

Exemple: Quelle est la probabilité de lancer un dé une fois et d'en obtenir 4 ou moins? Réponse: $ F_X (4) = P (X \ leq 4) = 4/6 = 2/3 $. à propos de ça. La fonction de distribution cumulative est également appelée simplement fonction de distribution. La variable de probabilité $ X $ lorsque la variable prend des valeurs discrètes comme un dé est appelée une variable de probabilité discrète, et lorsque la variable prend des valeurs continues comme la température, elle est appelée une variable de probabilité continue.

Fonction de probabilité / fonction de densité de probabilité

La fonction de distribution cumulative $ $ $ F_X (x) $ considère la probabilité cumulative ($ X \ leq x $), mais ensuite la probabilité (ponctuelle) que $ X = x $.

** ・ Type discret ** $ f_X (x) = P (X = x) $ s'appelle une fonction stochastique. Si vous mettez une valeur dans une variable, la probabilité est calculée. Pour la variable de probabilité discrète $ X $, la fonction de probabilité $ f_X (x) $

  f_X(x) = \left\{ \begin{array}{ll}
    p(x_i) & (x=x_Quand je) \\
    0 & (x \notin \Quand chi)
  \end{array} \right.

Peut être exprimé comme. J'ai omis l'expression exacte, mais les caractères utilisés sont les mêmes que les significations des caractères qui sont apparus jusqu'à présent. ** ・ Type continu ** Dans le cas de type continu, il n'est pas possible de calculer la probabilité car il n'est pas possible de ne considérer qu'une seule variable. Par exemple, même si vous essayez de représenter le nombre réel 1 sur la ligne droite du nombre réel, il continuera indéfiniment sous la forme 1.0000000000 .... Par conséquent, considérez la probabilité que la variable ait une petite largeur au lieu d'un point. Définition:

Pour la variable de probabilité continue $ X , $ F_X (x) =
\int_{-\infty}^x f_X(t) dt, \ -\infty<x<\infty \tag{1} \ $$ Lorsque la fonction $ f_X (x) $ qui devient est présente, $ f_X (x) $ est appelée ** fonction de densité de probabilité **.

Par exemple, quelle est la probabilité que la température de demain $ T [℃] $ soit de 22 $ \ leq T \ leq25 $? C'est une façon de penser. $ F_X (x) $ est une fonction de distribution cumulative. Je pense que vous vous habituerez bientôt à la densité d'expression. Puisqu'il s'agit d'une probabilité, bien sûr, $ \ int_ {- \ infty} ^ {\ infty} f_X (x) dx = 1 \ tag {2} $. À partir de l'équation (1), nous pouvons voir que $ f_X (x) = \ frac {d} {dx} F_X (x) $. La fonction de densité de probabilité converge à la limite de $ x \ vers ± \ infty $. En effet, la fonction de distribution cumulative, qui est la valeur intégrale de la fonction de densité de probabilité, converge vers 1.

Valeur attendue

Premièrement, à partir de la définition de la valeur attendue:

$$ La valeur attendue de la fonction $ g (X) $ de la variable de probabilité $ X $ est représentée par $ E [g (X)] $.

E[g(X)] = \left{ \begin{array}{ll} \int_{-\infty}^{\infty} g(x)f_X(x) dx& (Lorsque X est une variable de probabilité continue) \ \sum_{x_i \in \chi}g(x_i)f_X(x_i) & (Lorsque X est une variable de probabilité discrète) \end{array} \right.

 Il est exprimé comme.

 $ f_X (x) $ est la fonction stochastique ci-dessus. En d'autres termes, vous additionnez le produit de la valeur de chaque variable $ x $ et de la probabilité que cette valeur se produise. La raison pour laquelle la valeur attendue est importante est que la moyenne et la variance, qui sont les valeurs caractéristiques (informations réduites) de la distribution de probabilité, sont également les valeurs attendues de la fonction $ g (X) $ d'une certaine variable de probabilité $ X $.

 ·moyenne
 Lorsque $ g (X) = X $, la valeur attendue de $ X $ $ E [X] $ est appelée la moyenne de $ X $. Il est exprimé comme $ E [X] = \ mu $. Pour les mouvements parallèles et les changements d'échelle
$$E[aX+b]=aE[X]+b$$
 Ce sera.

 ・ Distribué
 Lorsque $ g (X) = (XE [X]) ^ 2 $, la valeur attendue $ E [(X- \ mu) ^ 2] $ est appelée la distribution de $ X $, et $ V (X) $ ou $ Il est exprimé par \ sigma ^ 2 $. $ \ Sigma = \ sqrt {V (X)} $ est appelé l'écart type de $ X $. La variance représente le degré de dispersion des données et l'écart type est celui qui est le plus facile à calculer en supprimant une dimension. J'omettrai la preuve, mais la dispersion est pour le mouvement parallèle et le changement d'échelle.
$$V[aX+b]=a^2V[X]$$
 Ce sera. Puisque la variance considère à l'origine le carré de l'écart (la différence entre la valeur moyenne et chaque donnée), je pense que cela a du sens. Je pense que vous pouvez comprendre intuitivement que même si les données se déplacent en parallèle, le degré de diffusion ne change pas.

 * La fonction de génération de probabilité, la fonction de génération de rapport de produit et la fonction caractéristique sont probablement longues, je les présenterai donc dans un article à un autre. Comme son nom l'indique, c'est une fonction qui permet d'obtenir automatiquement la fonction de probabilité et le rapport produit.

# Lançons python
 Utilisons maintenant python pour examiner la fonction de densité de probabilité et la fonction de distribution cumulative de la distribution normale standard (qui apparaîtra dans le chapitre suivant).

```python
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm 

fig,ax = plt.subplots() 

x1 = np.arange(-5,5,0.1)
x2 = np.arange(-5,5,0.01)
y = (np.exp(-x2**2/2)) / np.sqrt(2*np.pi)
Y = norm.cdf(x1,loc=0,scale=1)#Fonction de distribution cumulative de la distribution normale standard(cumulative distribution function)Calculer

c1,c2 = "red","blue"

ax.set_xlabel("x")
ax.set_ylabel("plobability")
plt.grid(True)
plt.plot(x1,Y,color=c1,label=l1)
plt.plot(x2,y,color=c2,label=l2)
plt.show()

Lorsque vous faites cela, cela ressemblera à la figure ci-dessous image.png Le graphique bleu est la fonction de densité de probabilité de distribution normale standard $ f_X (x) $, et le graphique rouge est la fonction de distribution cumulative $ F_X (x) $. Vous pouvez voir que la fonction de distribution cumulative s'approche de 0 à 1.

C'est la fin du chapitre 2. Merci beaucoup.

Les références

"Bases des statistiques mathématiques modernes" par Tatsuya Kubogawa

Recommended Posts

[Bases des statistiques mathématiques modernes avec python] Chapitre 2: Distribution des probabilités et valeur attendue
[Bases des statistiques mathématiques modernes avec python] Chapitre 3: Distribution de probabilité typique
[Bases des statistiques mathématiques modernes avec python] Chapitre 1: Probabilité
[Bases des statistiques mathématiques modernes avec python] Chapitre 2: Distribution des probabilités et valeur attendue
Calcul séquentiel de la valeur moyenne avec l'algorithme en ligne
Calcul de la quantité d'informations mutuelles (valeur continue) avec numpy
1. Statistiques apprises avec Python 2. Distribution des probabilités [Compréhension approfondie de scipy.stats]
[Introduction aux data scientists] Bases de la probabilité et des statistiques ♬ Variable de probabilité / probabilité et distribution de probabilité
1. Statistiques apprises avec Python 2-1. Distribution de probabilité [variable discrète]
[Python of Hikari-] Chapitre 06-02 Fonction (argument et valeur de retour 1)
Premiers pas avec Python Bases de Python
Coexistence de Python2 et 3 avec CircleCI (1.0)
Bases du traitement d'images binarisées par Python
1. Statistiques apprises avec Python 1-3. Calcul de diverses statistiques (statistiques)
Réhabilitation des compétences Python et PNL à partir de "100 Language Processing Knock 2015" (Chapitre 1)
[Python] Chapitre 02-04 Bases du programme Python (À propos des commentaires)
[Python] Chapitre 02-03 Bases des programmes Python (entrée / sortie)
Deep Learning from scratch La théorie et la mise en œuvre de l'apprentissage profond appris avec Python Chapitre 3
Liste des principales distributions de probabilité utilisées en apprentissage automatique et statistiques et code en python
[Python of Hikari-] Chapitre 05-06 Syntaxe de contrôle (base de la notation d'inclusion)
1. Statistiques apprises avec Python 1-2. Calcul de diverses statistiques (Numpy)
Concept de raisonnement bayésien (2) ... Estimation bayésienne et distribution de probabilité
Implémentation de l'arbre TRIE avec Python et LOUDS
[Python] Chapitre 02-02 Bases des programmes Python (gestion des chaînes de caractères)
[Hikari-Python] Chapitre 09-01 Classes (Bases des objets)
[Python] Chapitre 02-05 Bases des programmes Python (opérations / méthodes de chaînes de caractères)
Poursuite du développement multi-plateforme avec Electron et Python
Exemple de lecture et d'écriture de CSV avec Python
Statistiques avec python
Les bases de Python ①
Bases de python ①
Réhabilitation des compétences Python et PNL à partir de "100 Language Processing Knock 2015" (Chapitre 2 premier semestre)
[Python] Chapitre 02-06 <Supplement> Bases des programmes Python (gestion des valeurs numériques)
[Python of Hikari-] Chapitre 06-04 Fonctions (arguments et valeurs de retour 3)
Téléchargez facilement et partiellement mp4 avec python et youtube-dl!
[Chapitre 5] Introduction à Python avec 100 coups de traitement du langage
Visualisez la gamme d'insertions internes et externes avec python
LiNGAM (version ICA) à comprendre avec des formules mathématiques et Python
[Chapitre 3] Introduction à Python avec 100 coups de traitement du langage
[Chapitre 2] Introduction à Python avec 100 coups de traitement du langage
[Python of Hikari-] Chapitre 06-03 Fonctions (arguments et valeurs de retour 2)
[Bases de la science des données] Collecte de données depuis RSS avec python
Vérifiez la nature atrophique de la distribution de probabilité en Python
[Python] Chapitre 01-02 À propos de Python (Exécution et installation de l'environnement de développement)
Comparaison de CoffeeScript avec la grammaire JavaScript, Python et Ruby
Gestion des versions de Node, Ruby et Python avec anyenv
[Chapitre 4] Introduction à Python avec 100 coups de traitement du langage
"Analyse des séries chronologiques de mesure des données économiques et financières" Résolution du problème de fin de chapitre avec Python
Principes de base du grattage Python
Bases de python: sortie
Module [Python of Hikari-] Chapitre 08-03 (Importation et utilisation de la bibliothèque standard)
[Hikari-Python] Chapitre 05-10 Syntaxe de contrôle (interruption et poursuite du traitement itératif)
Débarrassez-vous des données sales avec Python et les expressions régulières
Détecter les objets d'une couleur et d'une taille spécifiques avec Python
[Introduction to Data Scientists] Bases de Python ♬ Fonctions et classes
Exemple d'analyse HTTP GET et JSON avec Pepper Python
[Golang] Principes de base du langage Go À propos du récepteur de valeur et du récepteur de pointeur
Jouez avec le mécanisme de mot de passe de GitHub Webhook et Python