[PYTHON] Bayes Modellierung-Schätzung des Unterschieds zwischen den beiden Gruppen-

Schätzung des Unterschieds zwischen den beiden Gruppen

Einführung

Die erste Übung der Bayes'schen Modellierung

Ich hatte aus verschiedenen Gründen nicht viel Zeit, konnte aber endlich das Bayes'sche Modellieren üben.

Teil 1 befasst sich mit dem Unterschied zwischen den beiden Gruppen der Bayes'schen Statistik

Nachschlagewerke

"Erste statistische Datenanalyse" (https://www.asakura.co.jp/books/isbn/978-4-254-12214-5/)

ist.

Die verwendeten Daten sind die berühmte "Iris"

Außerdem habe ich "pedal.length" (die Länge des Gaku?) Verwendet.

Ich benutze Stan + Python (Pystan) für die Software für die Bayes'sche Modellierung.

Über den Unterschied zwischen den beiden Gruppen anhand der Bayes'schen Statistik

Der Zweck dieser Zeit ist es, den als frequenzbasierte Statistik bekannten t-Test durch Bayes'sche Modellierung durchzuführen.

Unter der Annahme, dass die beobachteten Daten x1 und x2 sind, sind dies

x1 ~ normal(mu1, sigma1)
x2 ~ normal(mu2, sigma2)

Es wird so generiert.

Durch Vergleich der Populationsmittelwerte mu1 und mu2, die aus den beobachteten Werten (x1, x2) geschätzt wurden,

Es wird möglich, die Wahrscheinlichkeit zu diskutieren, dass zwischen ihnen ein Unterschied besteht.

Experiment

Zunächst zeigt das folgende Diagramm für die Originaldaten die Normalverteilung, wobei mu und Sigma als Histogramm geschätzt werden. image1.png

Jeweils 50 Daten für versicolor und virginica Arten,

Sicher, nur durch Zeichnen können Sie sehen, dass es einen Unterschied zwischen ihnen zu geben scheint.

Nächster geschätzter mu_versicolor, mu_virginica-Plot image2.png

Es gibt zwei Arten von dunklen und hellen Farben, eine wird aus 10 Proben (hellere) und die andere aus 30 Proben (dunklere) geschätzt.

Aus der Tatsache, dass die dünneren weit verbreitet sind, ist ersichtlich, dass die Schätzung umso genauer erfolgen kann, je mehr Beobachtungen es gibt.

Schließlich mu_versicolor - 10 Beispielversion, 30 Beispielversionsplot von mu_viginica

image3.png

10 Proben für Blau, 30 Proben für Grün

Durch Zusammenfassung dieses Histogramms (Erhalt von EAP)

Es ist möglich, die Wahrscheinlichkeit zu bewerten, dass die Größe des Gaku größer als ~ ~ cm ist.

Denn je größer die Anzahl der Proben ist, desto höher ist die Schärfe des Histogramms.

Bei 30 Proben kann festgestellt werden, dass in den meisten Fällen ein Unterschied von 1,0 bis 1,5 besteht.

Fazit

Dieses Mal habe ich den Unterschied zwischen den beiden Werten mithilfe der Bayes'schen Statistik bewertet, aber er scheint durchaus brauchbar zu sein.

Es ist gut, dass nicht nur der p-Wert, sondern auch die Wahrscheinlichkeit, wie weit voneinander entfernt, als ~~% erhalten werden kann.

Gleichzeitig wäre es schön, die geringe Zuverlässigkeit der kleinen Datenmenge bewerten zu können.

Ich möchte es für meine eigene Masterarbeit verwenden ~ ~ ~

Recommended Posts

Bayes Modellierung-Schätzung des Unterschieds zwischen den beiden Gruppen-
Berücksichtigung des Unterschieds zwischen ROC-Kurve und PR-Kurve
Berechnen Sie den Zeitunterschied zwischen zwei Spalten mit Pandas DataFrame
Berechnen Sie die Entsprechung zwischen zwei Abteilungen
Schätzen Sie die Verzögerung zwischen zwei Signalen
Ich untersuchte das Verhalten bezüglich des Unterschieds zwischen Hard Link und Symbolic Link
Ungefährer Abstand zwischen zwei Punkten auf der Oberfläche eines rotierenden Ellipsoids (auf der Erdoberfläche)
Testmethode für Größenunterschiede zwischen Gruppen
Test der Differenz zwischen den Durchschnittswerten der Zähldaten gemäß der Poisson-Verteilung
Was ist der Unterschied zwischen "pip" und "conda"?
Zusammenfassung der Unterschiede zwischen PHP und Python
Die Antwort von "1/2" unterscheidet sich zwischen Python2 und 3
Über den Unterschied zwischen "==" und "is" in Python
Über den Unterschied zwischen PostgreSQL su und sudo
Was ist der Unterschied zwischen Unix und Linux?
Grober Unterschied zwischen Unicode und UTF-8 (und seinen Begleitern)
Kann BERT den Unterschied zwischen "Ame (Süßigkeiten)" und "Ame (Regen)" verstehen?
Unterschied zwischen Ruby und Python in Bezug auf Variablen
Was ist der Unterschied zwischen usleep, nanosleep und clock_nanosleep?
Python-Implementierung der Bayes'schen linearen Regressionsklasse
Unterschied in den Ergebnissen abhängig vom Argument von multiprocess.Process
Visualisierung der Verbindung zwischen Malware und dem Callback-Server
Wie man Argparse benutzt und den Unterschied zwischen Optparse