[PYTHON] Modélisation-estimation de Bayes de la différence entre les deux groupes-

Estimer la différence entre les deux groupes

introduction

La première pratique de la modélisation bayésienne

Je n'ai pas eu beaucoup de temps pour diverses raisons, mais j'ai finalement pu pratiquer la modélisation bayésienne.

La première partie traite de la différence entre les deux groupes de statistiques bayésiennes

Livres de référence

"Première analyse des données statistiques" (https://www.asakura.co.jp/books/isbn/978-4-254-12214-5/)

est.

Les données utilisées sont le fameux "iris"

De plus, j'ai utilisé "pedale.length" (la longueur du gaku?).

J'utilise stan + python (pystan) pour le logiciel de modélisation bayésienne.

À propos de la différence entre les deux groupes en utilisant les statistiques bayésiennes

Le but de ce temps est d'effectuer le test t, qui est connu comme une statistique basée sur la fréquence, par modélisation bayésienne.

En supposant que les données observées sont x1 et x2, ce sont

x1 ~ normal(mu1, sigma1)
x2 ~ normal(mu2, sigma2)

Il est généré comme ça.

En comparant les moyennes de population mu1 et mu2 estimées à partir des valeurs observées (x1, x2),

Il devient possible de discuter de la probabilité qu'il y ait une différence entre eux.

Expérience

Premièrement, pour les données originales, le graphique ci-dessous montre la distribution normale avec mu et sigma estimés sous forme d'histogramme. image1.png

50 données chacune pour les espèces versicolor et virginica,

Certes, rien qu'en traçant, vous pouvez voir qu'il semble y avoir une différence entre eux.

Prochain graphique mu_versicolor, mu_virginica estimé image2.png

Il existe deux types de couleurs sombres et claires, l'une est estimée à partir de 10 échantillons (un plus clair) et l'autre est estimée à partir de 30 échantillons (un plus foncé).

Du fait que les plus minces sont largement distribués, on peut voir que plus il y a d'observations, plus l'estimation peut être précise.

Enfin mu_versicolor --10 exemple de version, 30 exemples de graphique de version de mu_viginica

image3.png

10 échantillons pour le bleu, 30 échantillons pour le vert

En résumant cet histogramme (obtention du PAE)

Il est possible d'évaluer la probabilité que la taille du gaku soit supérieure à ~ ~ cm.

Après tout, plus le nombre d'échantillons est élevé, plus la netteté de l'histogramme est élevée.

Dans le cas de 30 échantillons, on peut évaluer qu'il existe une différence de 1,0 à 1,5 dans la plupart des cas.

Conclusion

Cette fois, j'ai évalué la différence entre les deux valeurs en utilisant des statistiques bayésiennes, mais cela semble être tout à fait utilisable.

Il est bon que non seulement la valeur p, mais aussi la probabilité de distance les uns des autres puissent être obtenues comme ~~%.

Dans le même temps, ce serait bien de pouvoir évaluer la faible fiabilité de la petite quantité de données.

Je veux l'utiliser pour mon propre mémoire de maîtrise ~ ~ ~

Recommended Posts

Modélisation-estimation de Bayes de la différence entre les deux groupes-
Prise en compte de la différence entre la courbe ROC et la courbe PR
Calculez le décalage horaire entre deux colonnes avec Pandas DataFrame
Calculez la correspondance entre deux divisions
Estimer le délai entre deux signaux
J'ai étudié le comportement de la différence entre lien dur et lien symbolique
Distance approximative entre deux points à la surface d'un ellipsoïde en rotation (à la surface de la terre)
Méthode d'essai pour la différence de taille entre les groupes
Test de la différence entre les valeurs moyennes des données de comptage selon la distribution de Poisson
Quelle est la différence entre «pip» et «conda»?
Résumé des différences entre PHP et Python
La réponse de "1/2" est différente entre python2 et 3
À propos de la différence entre "==" et "is" en python
À propos de la différence entre PostgreSQL su et sudo
Quelle est la différence entre Unix et Linux?
Différence approximative entre Unicode et UTF-8 (et ses compagnons)
BERT peut-il comprendre la différence entre «Ame (bonbons)» et «Ame (pluie)»?
Différence entre Ruby et Python en termes de variables
Quelle est la différence entre usleep, nanosleep et clock_nanosleep?
Implémentation python de la classe de régression linéaire bayésienne
Différence de résultats en fonction de l'argument du multiprocessus.
Visualisation de la connexion entre le malware et le serveur de rappel
Comment utiliser argparse et la différence entre optparse