Die erste Übung der Bayes'schen Modellierung
Ich hatte aus verschiedenen Gründen nicht viel Zeit, konnte aber endlich das Bayes'sche Modellieren üben.
Teil 1 befasst sich mit dem Unterschied zwischen den beiden Gruppen der Bayes'schen Statistik
Nachschlagewerke
"Erste statistische Datenanalyse" (https://www.asakura.co.jp/books/isbn/978-4-254-12214-5/)
ist.
Die verwendeten Daten sind die berühmte "Iris"
Außerdem habe ich "pedal.length" (die Länge des Gaku?) Verwendet.
Ich benutze Stan + Python (Pystan) für die Software für die Bayes'sche Modellierung.
Der Zweck dieser Zeit ist es, den als frequenzbasierte Statistik bekannten t-Test durch Bayes'sche Modellierung durchzuführen.
Unter der Annahme, dass die beobachteten Daten x1 und x2 sind, sind dies
x1 ~ normal(mu1, sigma1)
x2 ~ normal(mu2, sigma2)
Es wird so generiert.
Durch Vergleich der Populationsmittelwerte mu1 und mu2, die aus den beobachteten Werten (x1, x2) geschätzt wurden,
Es wird möglich, die Wahrscheinlichkeit zu diskutieren, dass zwischen ihnen ein Unterschied besteht.
Zunächst zeigt das folgende Diagramm für die Originaldaten die Normalverteilung, wobei mu und Sigma als Histogramm geschätzt werden.
Jeweils 50 Daten für versicolor und virginica Arten,
Sicher, nur durch Zeichnen können Sie sehen, dass es einen Unterschied zwischen ihnen zu geben scheint.
Nächster geschätzter mu_versicolor, mu_virginica-Plot
Es gibt zwei Arten von dunklen und hellen Farben, eine wird aus 10 Proben (hellere) und die andere aus 30 Proben (dunklere) geschätzt.
Aus der Tatsache, dass die dünneren weit verbreitet sind, ist ersichtlich, dass die Schätzung umso genauer erfolgen kann, je mehr Beobachtungen es gibt.
Schließlich mu_versicolor - 10 Beispielversion, 30 Beispielversionsplot von mu_viginica
10 Proben für Blau, 30 Proben für Grün
Durch Zusammenfassung dieses Histogramms (Erhalt von EAP)
Es ist möglich, die Wahrscheinlichkeit zu bewerten, dass die Größe des Gaku größer als ~ ~ cm ist.
Denn je größer die Anzahl der Proben ist, desto höher ist die Schärfe des Histogramms.
Bei 30 Proben kann festgestellt werden, dass in den meisten Fällen ein Unterschied von 1,0 bis 1,5 besteht.
Dieses Mal habe ich den Unterschied zwischen den beiden Werten mithilfe der Bayes'schen Statistik bewertet, aber er scheint durchaus brauchbar zu sein.
Es ist gut, dass nicht nur der p-Wert, sondern auch die Wahrscheinlichkeit, wie weit voneinander entfernt, als ~~% erhalten werden kann.
Gleichzeitig wäre es schön, die geringe Zuverlässigkeit der kleinen Datenmenge bewerten zu können.
Ich möchte es für meine eigene Masterarbeit verwenden ~ ~ ~
Recommended Posts