In diesem Artikel geht es um ein loses Memo, das von einem unerfahrenen Statistiker erstellt wurde, um mit dem Psychostatistikkurs bei Bayesian Statistics Schritt zu halten. Es kann also zu Fehlern kommen. Ich würde es begrüßen, wenn Sie darauf hinweisen könnten. Wenn Sie sich in der gleichen Situation befinden, lassen Sie uns gemeinsam unser Bestes geben. Der Inhalt wird entsprechend hinzugefügt.
TL;DR Die Punktschätzung und Intervallschätzung der Parameter der ** posterioren Verteilung ** der Illusionsmenge im ** Mulleriya-Illusionsexperiment ** wurden nach der ** Bayes'schen Schätzmethode ** durchgeführt.
Es ist eine Art Illusion, dass selbst wenn die Linien dieselbe Länge haben, sie länger wahrgenommen werden, wenn sie zwischen diagonalen Linien nach außen liegen (Abbildung B), als wenn sie zwischen diagonalen Linien nach innen liegen (Abbildung A). Die Differenz zwischen der tatsächlichen Linienlänge und der wahrgenommenen Linienlänge wird als ** Illusionsbetrag ** bezeichnet.
Bevor wir zur Erklärung der Bayes'schen Schätzung übergehen, werden wir ** die wahrscheinlichste Schätzmethode **, die für die herkömmliche Methode repräsentativ ist, als Vergleichsziel verwenden und den Unterschied beschreiben, wie die Beziehung zwischen dem Modell und den Daten zu erfassen ist.
Die Beziehung zwischen dem Modell und den Daten in der wahrscheinlichsten Schätzmethode wird durch einen ** wahren Wert ** (wahres Modell) bestimmt, und die Daten werden wahrscheinlich aus dem wahren Modell generiert, sodass es davon abhängt, wie sie genommen werden. Die Idee ist, dass es sich wahrscheinlich ändert. Am Beispiel von Cointos beträgt der wahre Wert, selbst wenn er eine Wahrscheinlichkeit von 0,5 hat, tatsächlich 0,8 oder 0,3. Wenn Sie den Münzwurf jedoch viele Male wiederholen und den Durchschnitt nehmen, sollte er sich 0,5 ...
In welchem Modell werden diese Daten am wahrscheinlichsten erhalten, wenn die Daten fixiert sind? Die Idee der Wahrscheinlichkeit besteht darin, dies zu denken, und die Methode zur Schätzung des Modells mit der maximalen Wahrscheinlichkeit ist die wahrscheinlichste Schätzmethode.
Andererseits wird in der Bayes'schen Schätzung der wahre Wert als ** Wahrscheinlichkeitsverteilung ** betrachtet. Die Idee ist daher, dass die Daten nur Informationen sind. Wenn Sie die Daten immer mehr hinzufügen und aktualisieren, können Sie die Verteilung (= Verteilung der wahren Werte) schätzen, die das Phänomen besser erklären kann. Zu diesem Zeitpunkt wird die Wahrscheinlichkeitsverteilung subjektiver Überzeugungen darüber, wo sich die Bevölkerung vor dem Betrachten der Daten befindet, als ** vorherige Verteilung ** bezeichnet, und die Verteilung der Bevölkerung, die nach Erhalt der Daten aktualisiert wurde, ist **. Es heißt posteriore Verteilung **. Die Bayes'sche Statistik verwendet den Bayes'schen Satz, um Phänomene zu modellieren. Die posteriore Verteilung wird einfach nach der folgenden Formel berechnet.
** Nachverteilung ** = (Vorverteilung x Wahrscheinlichkeit) / Datenverteilung (Normalisierungskonstante)
Die wahrscheinlichste Schätzmethode schätzt den wahren Wert nur aus der Wahrscheinlichkeit (genau wird eine gleichmäßige Verteilung angewendet), aber bei der Bayes'schen Schätzmethode wird die Wahrscheinlichkeit durch die vorherige Verteilung beeinflusst, und die hintere Verteilung ist die Wahrscheinlichkeit. Wird aus dem Produkt der vorherigen Verteilung geschätzt. Um Objektivität und Fairness zu gewährleisten, ist es daher eine gute Idee, ** nicht informative vorherige Verteilung ** auszuwählen, die die hintere Verteilung für die in der Analyse verwendete vorherige Verteilung nicht so stark wie möglich beeinflusst.
Für Details stellte ein Fakultätsmitglied einer auf Sozialpsychologie spezialisierten Universität im schriftlichen Artikel fest, dass es Unterschiede zur herkömmlichen wahrscheinlichsten Schätzmethode sowie Vor- und Nachteile gibt. Es ist leicht verständlich geschrieben, beziehen Sie sich daher bitte darauf (~~ Die obige Erklärung entspricht fast der zitierten Artikel ~~).
Die posteriore Verteilung könnte durch (Vorverteilung x Wahrscheinlichkeit) / Datenverteilung abgeleitet werden. Es scheint jedoch schwierig zu sein, die Verteilung von Daten analytisch zu lösen (Integration von Normalisierungskonstanten). Daher wird bei der Bayes'schen Schätzung ein Algorithmus namens "MCMC-Methode" verwendet, um ** eine Population zu erzeugen, die der posterioren Verteilung als Zufallszahl folgt ** und die posteriore Verteilung zu erhalten, als wäre es eine Datenverteilung. Die erhaltene Zufallszahlenfolge heißt ** Kette **.
Nach einer kurzen Erläuterung der Begriffe möchte ich bestätigen, was ich diesmal tun möchte.
Diesmal die Parameter der posterioren Verteilung nach Beobachtung im Mulleriya-Illusionsexperiment
―― 1. ** Punktschätzung ** von $ \ mu $ (Was ist der durchschnittliche $ \ mu $ der "Illusionsmenge"?) ―― 2. ** Abschnittsschätzung von $ \ mu $ ** (Welche mm bis welche mm sind die durchschnittlichen $ \ mu $ der "Illusionsmenge"?) -- 3. ** Punktschätzung ** von $ \ sigma $ (Was ist die durchschnittliche wahrgenommene Streuung der "Illusionsmenge" $ \ sigma $?) ―― 4. ** Intervallschätzung ** von $ \ sigma $ (Welche mm bis welche mm ist die durchschnittliche wahrgenommene Streuung der "Illusionsmenge" $ \ sigma $?)
Ich will! Wir werden also mit der Bayes'schen Schätzmethode analysieren.
Als Ergebnis von 10 Versuchen des Mulleriya-Illusionsexperiments für einen Teilnehmer beträgt der ** Illusionsbetrag ** (Differenz zwischen der tatsächlichen Linienlänge und der wahrgenommenen Länge) für die Figur A.
23,21,19,22,20,17,22,18,20,25
Es scheint, dass es war. Dieses Mal werden wir diese Daten zur Analyse verwenden.
import numpy as np
import scipy as sp
import scipy.stats as stats
import pandas as pd
from IPython.core.pylabtools import figsize
from matplotlib import pyplot as plt
observed_data_list = [23,21,19,22,20,17,22,18,20,25]
observed_data = pd.Series(observed_data_list)
Eine Python-Bibliothek namens PyMC3 wird verwendet, um die posteriore Verteilung abzutasten. Dieses Mal nehmen wir ein Normalverteilungsmodell für die posteriore Verteilung an. Daher sind zwei Parameter zu erraten: $ \ mu $ und $ \ sigma $.
Hier bestand die Idee der Bayes'schen Schätzmethode darin, dass die Parameter auch eine Art Wahrscheinlichkeitsverteilung sind, keine festen Werte. Daher müssen die Parameter $ \ mu $ und $ \ sigma $ auch eine vorherige Verteilung annehmen. Die vorherige Verteilung des Populationsmittelwerts $ \ mu $ und der Populationsstandardabweichung $ \ sigma $ wird als einheitlich angenommen, und die Parameter werden in einem ausreichend weiten Bereich eingestellt, um nicht subjektiv zu sein.
Außerdem werden diesmal 25.000 Zufallszahlen generiert und 5 Ketten generiert.
import pymc3 as pm
with pm.Model() as model:
#Vorherige Verteilung
mu = pm.Uniform('mu', 10, 35)
sigma = pm.Uniform('sigma', 1, 9)
#Haftung
ml = pm.Normal('ml', mu=mu, sd=sigma, observed=observed_data)
#Probenahme
trace_g = pm.sample(25000)
Die ersten 5000 generierten Zufallszahlen sind wahrscheinlich keine Zufallszahlen, die der posterioren Verteilung folgen, daher werden sie verworfen (Einbrennen).
chain_g = trace_g[5000:]
pm.traceplot(chain_g)
plt.figure()
pm.summary()
Mit pm.summary ()
können Sie die zusammenfassende Statistik der posterioren Verteilung berechnen.
$ \ Hat {R} $ ist ein Index, mit dem beurteilt werden kann, ob eine Zufallszahl generiert wird, die mit dem MCMC-Modell übereinstimmt. Je näher sie an 1 liegt, desto besser.
Der Durchschnittswert der posterioren Verteilung wird genannt (= ** a posteriori erwartet, EAP). Aus der Tabelle geht hervor, dass der EAP für ** $ \ mu $ $ \ hat {\ mu_ {eap}} = $ 21,39 mm ** war.
Unter Bezugnahme auf die 2,5% - und 97,5% -Punkte in der Tabelle betrug das zweiseitige Konfidenzintervall für ** $ \ mu $ [18,83 mm, 24,85 mm] **.
Aus der Tabelle geht hervor, dass der EAP für ** $ \ sigma $ $ \ hat {\ sigma_ {eap}} $ = 4,00 mm ** war.
Unter Bezugnahme auf die 2,5% - und 97,5% -Punkte in der Tabelle betrug das bilaterale Verurteilungsintervall für ** $ \ sigma $ [2,00 mm, 6,61 mm] **.
Ich habe angefangen, Bayes'sche Statistik zu studieren, weil es eine Pause vom Hypothesentest war, aber als ich Bücher las, flogen Wörter wie ** Kette ** und ** Einbrennen ** herum und das Verfahren, bis ich die Parameter bekam. Weil es kompliziert ist, gibt es oft Orte wie ** "Was macht das denn?" ** auf dem Weg. Brennen Sie bis jetzt mit statistischer Software! Ausgehend von dem Körper, der das Ergebnis durch Hirntod berechnet hat, ** ist es notwendig, diese Art von Anstrengung nur durch Schätzung der Parameter der Bevölkerung zu unternehmen ... ** und das Gehirn steht kurz vor der Punktion.
[Zusatz] Anscheinend gibt es Diskussionen im Bereich der Bayes'schen Statistik aufgrund unterschiedlicher Ideen und Interpretationen. Daher wird empfohlen, den Inhalt dieses Artikels als einzelnes Memo anzuzeigen.
[Hideki Toyoda "Neue überarbeitete Methode zur Unterbrechung der psychologischen Statistik aus dem Signifikanztest (Lehrmaterialien der Rundfunkuniversität)](https://www.amazon.co.jp/%E5%BF%83%E7%90%86%E7% B5% B1% E8% A8% 88% E6% B3% 95% E2% 80% 95% E6% 9C% 89% E6% 84% 8F% E6% 80% A7% E6% A4% 9C% E5% AE% 9A% E3% 81% 8B% E3% 82% 89% E3% 81% AE% E8% 84% B1% E5% 8D% B4-% E6% 94% BE% E9% 80% 81% E5% A4% A7 % E5% AD% A6% E6% 95% 99% E6% 9D% 90-% E8% B1% 8A% E7% 94% B0-% E7% A7% 80% E6% A8% B9 / dp / 4595317050 / ref = sr_1_1? __ mk_ja_JP =% E3% 82% AB% E3% 82% BF% E3% 82% AB% E3% 83% 8A & Schlüsselwörter =% E5% BF% 83% E7% 90% 86% E7% B5% B1% E8 % A8% 88% E6% B3% 95 & qid = 1580456205 & sr = 8-1) https://norimune.net/708
Recommended Posts