introduction

Cette série est une brève explication de "Les bases des statistiques mathématiques modernes" par Tatsuya Kubogawa, et implémentons le contenu en python. J'ai utilisé Google Colaboratory (ci-après dénommé Colab) pour la mise en œuvre. Si vous avez des suggestions, je vous serais reconnaissant de bien vouloir les écrire dans la section des commentaires. Il peut ne pas convenir à ceux qui veulent comprendre correctement tout le contenu du livre, car il est écrit avec une position qu'il serait bien qu'il puisse être produit en ne touchant que les parties qui nécessitent des explications. Veuillez noter que si les numéros de formule et les index de proposition / définition sont écrits selon le livre, les numéros peuvent être ignorés dans cet article.

Aperçu du chapitre 3

La fonction qui peut calculer la probabilité en donnant une variable était la distribution de probabilité. Chacun des divers types de distributions de probabilités a ses propres caractéristiques et utilisations. Il est important de connaître les caractéristiques de chaque distribution de probabilité, car vous ferez une erreur dans votre prédiction si vous faites une erreur dans la distribution de probabilité supposée. La valeur attendue et la variance de la distribution de probabilité peuvent être obtenues en utilisant la fonction de génération de probabilité, la fonction de génération de facteur de produit et la fonction caractéristique du chapitre précédent, mais je pense que vous devriez vous en souvenir. Vous vous en souviendrez peut-être en l'utilisant. À la fin du chapitre, nous abordons les équations de Stein et les formules Sterling. Si vous recherchez sur Google, vous trouverez de nombreuses distributions de probabilités qui ne sont pas présentées dans l'article. J'écrirai un article sur "Fonction de génération de probabilité, fonction de génération de facteur de produit, fonction caractéristique" à un autre moment pour prouver la proposition en utilisant la fonction de génération de probabilité, je voudrais donc l'introduire à ce moment-là.

Distribution de probabilité discrète

$ $ Nous avons traité des valeurs attendues et des variances au chapitre 2, mais n'avons pas abordé la relation entre les valeurs attendues et les variances. Soit $ E [X] = \ mu , et $ V (X) = E [(X- \ mu) ^ 2] = E [X ^ 2-2 \ mu X + \ mu ^ 2] = E [X ^ 2] - (E [X]) ^ 2 $ $=E[X(X-1)]+E[X]-(E[X])^2 $$ La relation est dérivée. Gardez à l'esprit que bon nombre de ces expressions relationnelles apparaîtront à l'avenir. La distribution de probabilité discrète introduite dans ce livre (distribution de probabilité dans laquelle la variable $ X $ est discrète) est la suivante. ・ Distribution uniforme discrète ・ Distribution binaire ・ Distribution de Poisson ・ Distribution géométrique ・ Distribution binomiale négative ・ Super distribution géométrique Prenons-le et jetons un coup d'œil.

Distribution binaire

$ $　 Avant la distribution binomiale, laissez-moi vous expliquer le procès de Bernoulli. Permettez-moi de citer l'expression dans le livre

Un essai de Bernoulli est une expérience dans laquelle une $ p $ probabilité de «succès», une $ 1-p $ probabilité de «échec» et une variable de probabilité $ X $ est «succès», $ 1 $, ' Prenez $ 0 $ en cas d'échec ».

La distribution binomiale est une distribution dans laquelle la variable $ X $ est le "nombre de" succès "" lorsque cet essai de Bernoulli est effectué indépendamment (l'essai précédent n'affecte pas l'essai suivant) $ n $. La probabilité d'échouer $ k $ fois et d'échouer $ nk $ fois est exprimée par la formule suivante (succès '', échec '' ne sont que des mots simples, tomber malade '', ne pas avoir '', etc. Tout ce que vous faites). $P(k)={}_nC_kp^k(1-p)^{n-k}, \ k=0,1,2,...,n $ La raison pour laquelle il y a $ {} _nC_k $ est que les essais $ n $ sont effectués indépendamment, vous pouvez donc choisir $ k $ 'succès' sur $ n $ fois. La distribution binominale, où le nombre d'essais et la probabilité sont respectivement $ n et p $, est représentée par $ Bin (n, p) $. Dans ce livre, il est écrit dans cette notation jusqu'à la fin, il faut donc s'y habituer.

À titre d'exemple, dessinons la distribution de probabilité du nombre de fois où le tableau apparaît lorsque la pièce est lancée 30 fois et 1000 fois.

Distribution de Poisson

La distribution de Poisson est un exemple particulier de la distribution binomiale, et lorsque des «phénomènes rares» peuvent être «observés (essayés) en grand nombre» (exemple: distribution du nombre d'accidents de la circulation survenant en une journée) Utilisez plutôt la distribution de Poisson. En d'autres termes, si vous prenez la limite de $ n \ à \ infty, \ p \ à 0 $ dans la distribution binomiale précédente, elle convergera vers la distribution de Poisson. Il existe également une formule pour la distribution de probabilité de la distribution de Poisson elle-même, mais je l'omettrai dans cet article. Lorsque $ np = \ lambda $, la distribution de Poisson est exprimée comme $ Po (\ lambda) $. Par exemple, si $ n = 10 et p = 0,1 $, alors $ \ lambda = 1 $ (ce qui se produit environ une fois toutes les 10 fois).

Vérifions la distribution binomiale et la distribution de Poisson avec python.

%matplotlib inline
import matplotlib.pyplot as plt
from scipy.special import comb#Fonction pour calculer la combinaison
import pandas as pd

#Dessin graphique de la distribution binomiale
def Bin(n,p,x_min,x_max,np):
  prob = pd.Series([comb(float(n),k)*p**k*(1-p)**(float(n)-k) for k in range(0,n+1)]) #Calculez la probabilité à chaque k
  plt.bar(prob.index,prob,label=np)#Graphique à barres (valeur y,valeur x)
  plt.xlim(x_min,x_max)
  plt.legend()
  plt.show()

Bin(1000,0.5,0,30,"n=30,p=0.5")#30 pièces
Bin(10000,0.5,4500,5500,"n=1000,p=0.5")#1000 pièces
Bin(40000,0.00007,0,15,"n=40000,p=0.00007")#Essayez d'augmenter n et de diminuer p

Si vous faites cela, vous obtiendrez les trois graphiques suivants.

Que diriez-vous de la même fonction, mais avec un peu de distorsion, vous pourriez dessiner quelque chose comme une distribution de Poisson.

Les trois autres distributions de probabilités discrètes ont également leurs propres idées uniques, mais je pense que vous pouvez les lire si vous êtes conscient de ce que représente la variable de probabilité discrète $ X $.

Distribution continue

La distribution continue introduite dans le livre est la suivante · Distribution uniforme ·distribution normale ・ Distribution gamma, distribution chi carré ・ Distribution exponentielle, distribution des dangers ・ Distribution bêta Prenons-le ici aussi.

distribution normale

$ $　 La distribution normale est la distribution de probabilité la plus importante car elle a une forme symétrique centrée sur la moyenne et est facile à manipuler. Lorsque la variable de probabilité $ X $ suit une distribution normale de moyenne $ \ mu, $ variance $ \ sigma ^ 2 $, la fonction de densité de probabilité pour $ X $ est $ f_X (x | \ mu, \ sigma ^ 2) = \ frac {1} {\ sqrt {2 \ pi} \ sigma} \ exp (- \ frac {(x- \ mu) ^ 2} {2 \ sigma ^ 2}) Donnée par $, cette distribution est $ \ mathcal Il est représenté par {N} (\ mu, \ sigma ^ 2) . Le $ mathcal standardisé {N} (0,1) $ est appelé la distribution normale standard, et $ \ phi (z) = \ frac {1} {\ sqrt {2 \ pi}} \ exp (- \ Écrivez frac {z ^ 2} {2}) $ (le graphique est dans l'article précédent). La fonction de distribution cumulative (valeur intégrée = probabilité) de la distribution normale standard est représentée par $ \ Phi (z) = \ int_ {- \ infty} ^ z \ phi (t) dt $, et l'hypothèse qui apparaîtra dans un chapitre ultérieur. Il est utilisé pour les tests et les intervalles de confiance.

Distribution gamma, distribution du chi carré

$　$ Il existe une distribution du chi carré comme cas particulier de la distribution gamma, mais la distribution du chi carré est plus importante en statistique. Comme nous le verrons dans les chapitres suivants, la distribution du chi carré est utilisée pour l'estimation par segment de la variance de la population, le test d'ajustement, le test d'indépendance, etc. Puisque les propriétés qui apparaissent dans les chapitres 4 et 5 sont plus importantes pour la distribution du chi carré que la formule exprimée à l'aide de la fonction gamma, seule la forme de la distribution du chi carré est dessinée ici. La distribution du chi carré avec $ n $ de liberté est représentée par $ \ chi_n ^ 2 $. J'omettrai le degré de liberté car il sera mieux compris dans les chapitres suivants.

import matplotlib.pyplot as plt
import numpy as np
from scipy import stats

x1 = np.arange(0,15,0.1)
y1 = stats.chi2.pdf(x=x1,df=1)#df=degree of freedom(Degré de liberté)est
y2 = stats.chi2.pdf(x=x1,df=2)
y3 = stats.chi2.pdf(x=x1,df=3)
y4 = stats.chi2.pdf(x=x1,df=5)
y5 = stats.chi2.pdf(x=x1,df=10)
y6 = stats.chi2.pdf(x=x1,df=12)

plt.figure(figsize=(7,5))
plt.plot(x1,y1, label='n=1')
plt.plot(x1,y2, label='n=2')
plt.plot(x1,y3, label='n=3')
plt.plot(x1,y4, label='n=5')
plt.plot(x1,y5, label='n=10')
plt.plot(x1,y6, label='n=12')

plt.ylim(0,0.7); plt.xlim(0,15)
plt.legend()
plt.show()

Lorsque vous faites cela, vous obtenez:

Distribution exponentielle, distribution des dangers

$ $　 La fonction de densité de probabilité de la distribution exponentielle est donnée par la formule suivante et est exprimée comme $ Ex (\ lambda) . $ f_X (x | \ lambda) = \ lambda e ^ {- \ lambda x}, \ x> 0 $$ La distribution exponentielle et la distribution des dangers sont utilisées comme distributions telles que le temps de survie et la période jusqu'à la panne de la machine, et la variable de probabilité $ X $ indique souvent le temps / la période. Valeur attendue de la distribution exponentielle, la variance est $ E [X] = \ frac {1} {\ lambda} = \ theta $ $ V (X) = \ frac {1} {\ lambda ^ 2} $ Et la distribution exponentielle de $ \ theta = 2 $ correspond à la distribution du chi carré de $ n = 2 $ degrés de liberté (ci-dessus). $ P (X> s) $ représente la probabilité de survie dans le temps $ s $, soit $ P (X> s) = 1-F_X (s) = e ^ {- \ lambda s} $ (1 est la probabilité totale, 2 items sont la fonction de distribution cumulative jusqu'au temps $ s $). La probabilité conditionnelle de survivre plus de $ t $ sous la condition de temps de survie $ s $ est $ P (X \ ge s + t | X \ ge s) = ... = \ frac {e ^ {- \ lambda (s + t)}} {e ^ {- \ lambda s}} = e ^ {^ \ lambda t} = P (X \ get) $, temps $ s $ survie Vous pouvez voir que cela ne dépend pas de la condition que vous faisiez (rappelez-vous la probabilité conditionnelle et essayez de la dériver). Cette propriété s'appelle la mémorisation et s'applique également à la distribution géométrique, qui est une distribution de probabilité discrète. Même si vous n'avez jamais eu de chance, la chance peut venir demain.

Distribution bêta

Dans la distribution bêta, la variable de probabilité $ X $ prend une valeur sur l'intervalle (0,1), et sa fonction de densité de probabilité est $ f_X (x | a, b) = \ frac {1} {B (a, b)} x ^ {a-1} (1-x) ^ {b-1} $ Donné par, représenté par $ Beta (a, b) $. $ B (a, b) $ est une fonction bêta $B(a,b)=\int_{0}^1 x^{a-1}(1-x)^{b-1} dx$ est. Vous pouvez facilement confirmer qu'il devient 1 lorsque la fonction de densité de probabilité est intégrée. Les fonctions bêta apparaissent dans le chapitre 6, la méthode bayésienne.

Je n'en ai présenté que quelques-uns, mais c'est tout pour le chapitre 3. Merci beaucoup.

Les références

"Bases des statistiques mathématiques modernes" par Tatsuya Kubogawa

[Bases des statistiques mathématiques modernes avec python] Chapitre 3: Distribution de probabilité typique