[PYTHON] [Psychologische Statistik] Bayesianische Schätzung der "Illusionsmenge" in der Mulleriya-Illusion

Einführung

In diesem Artikel geht es um ein loses Memo, das von einem unerfahrenen Statistiker erstellt wurde, um mit dem Psychostatistikkurs bei Bayesian Statistics Schritt zu halten. Es kann also zu Fehlern kommen. Ich würde es begrüßen, wenn Sie darauf hinweisen könnten. Wenn Sie sich in der gleichen Situation befinden, lassen Sie uns gemeinsam unser Bestes geben. Der Inhalt wird entsprechend hinzugefügt.

TL;DR Die Punktschätzung und Intervallschätzung der Parameter der ** posterioren Verteilung ** der Illusionsmenge im ** Mulleriya-Illusionsexperiment ** wurden nach der ** Bayes'schen Schätzmethode ** durchgeführt.

Erläuterung der Begriffe

Was ist die Mulleriya-Illusion?

OIP.jpg Es ist eine Art Illusion, dass selbst wenn die Linien dieselbe Länge haben, sie länger wahrgenommen werden, wenn sie zwischen diagonalen Linien nach außen liegen (Abbildung B), als wenn sie zwischen diagonalen Linien nach innen liegen (Abbildung A). Die Differenz zwischen der tatsächlichen Linienlänge und der wahrgenommenen Linienlänge wird als ** Illusionsbetrag ** bezeichnet.

Was ist die Bayes'sche Schätzmethode?

Bevor wir zur Erklärung der Bayes'schen Schätzung übergehen, werden wir ** die wahrscheinlichste Schätzmethode **, die für die herkömmliche Methode repräsentativ ist, als Vergleichsziel verwenden und den Unterschied beschreiben, wie die Beziehung zwischen dem Modell und den Daten zu erfassen ist.

Höchstwahrscheinlich Schätzmethode

Die Beziehung zwischen dem Modell und den Daten in der wahrscheinlichsten Schätzmethode wird durch einen ** wahren Wert ** (wahres Modell) bestimmt, und die Daten werden wahrscheinlich aus dem wahren Modell generiert, sodass es davon abhängt, wie sie genommen werden. Die Idee ist, dass es sich wahrscheinlich ändert. Am Beispiel von Cointos beträgt der wahre Wert, selbst wenn er eine Wahrscheinlichkeit von 0,5 hat, tatsächlich 0,8 oder 0,3. Wenn Sie den Münzwurf jedoch viele Male wiederholen und den Durchschnitt nehmen, sollte er sich 0,5 ...

In welchem Modell werden diese Daten am wahrscheinlichsten erhalten, wenn die Daten fixiert sind? Die Idee der Wahrscheinlichkeit besteht darin, dies zu denken, und die Methode zur Schätzung des Modells mit der maximalen Wahrscheinlichkeit ist die wahrscheinlichste Schätzmethode.

Bayesianische Schätzmethode

Andererseits wird in der Bayes'schen Schätzung der wahre Wert als ** Wahrscheinlichkeitsverteilung ** betrachtet. Die Idee ist daher, dass die Daten nur Informationen sind. Wenn Sie die Daten immer mehr hinzufügen und aktualisieren, können Sie die Verteilung (= Verteilung der wahren Werte) schätzen, die das Phänomen besser erklären kann. Zu diesem Zeitpunkt wird die Wahrscheinlichkeitsverteilung subjektiver Überzeugungen darüber, wo sich die Bevölkerung vor dem Betrachten der Daten befindet, als ** vorherige Verteilung ** bezeichnet, und die Verteilung der Bevölkerung, die nach Erhalt der Daten aktualisiert wurde, ist **. Es heißt posteriore Verteilung **. Die Bayes'sche Statistik verwendet den Bayes'schen Satz, um Phänomene zu modellieren. Die posteriore Verteilung wird einfach nach der folgenden Formel berechnet.

** Nachverteilung ** = (Vorverteilung x Wahrscheinlichkeit) / Datenverteilung (Normalisierungskonstante)

Die wahrscheinlichste Schätzmethode schätzt den wahren Wert nur aus der Wahrscheinlichkeit (genau wird eine gleichmäßige Verteilung angewendet), aber bei der Bayes'schen Schätzmethode wird die Wahrscheinlichkeit durch die vorherige Verteilung beeinflusst, und die hintere Verteilung ist die Wahrscheinlichkeit. Wird aus dem Produkt der vorherigen Verteilung geschätzt. Um Objektivität und Fairness zu gewährleisten, ist es daher eine gute Idee, ** nicht informative vorherige Verteilung ** auszuwählen, die die hintere Verteilung für die in der Analyse verwendete vorherige Verteilung nicht so stark wie möglich beeinflusst.

Für Details stellte ein Fakultätsmitglied einer auf Sozialpsychologie spezialisierten Universität im schriftlichen Artikel fest, dass es Unterschiede zur herkömmlichen wahrscheinlichsten Schätzmethode sowie Vor- und Nachteile gibt. Es ist leicht verständlich geschrieben, beziehen Sie sich daher bitte darauf (~~ Die obige Erklärung entspricht fast der zitierten Artikel ~~).

MCMC-Methode

Die posteriore Verteilung könnte durch (Vorverteilung x Wahrscheinlichkeit) / Datenverteilung abgeleitet werden. Es scheint jedoch schwierig zu sein, die Verteilung von Daten analytisch zu lösen (Integration von Normalisierungskonstanten). Daher wird bei der Bayes'schen Schätzung ein Algorithmus namens "MCMC-Methode" verwendet, um ** eine Population zu erzeugen, die der posterioren Verteilung als Zufallszahl folgt ** und die posteriore Verteilung zu erhalten, als wäre es eine Datenverteilung. Die erhaltene Zufallszahlenfolge heißt ** Kette **.

Was ich diesmal machen möchte

Nach einer kurzen Erläuterung der Begriffe möchte ich bestätigen, was ich diesmal tun möchte.

Diesmal die Parameter der posterioren Verteilung nach Beobachtung im Mulleriya-Illusionsexperiment

―― 1. ** Punktschätzung ** von $ \ mu $ (Was ist der durchschnittliche $ \ mu $ der "Illusionsmenge"?) ―― 2. ** Abschnittsschätzung von $ \ mu $ ** (Welche mm bis welche mm sind die durchschnittlichen $ \ mu $ der "Illusionsmenge"?) -- 3. ** Punktschätzung ** von $ \ sigma $ (Was ist die durchschnittliche wahrgenommene Streuung der "Illusionsmenge" $ \ sigma $?) ―― 4. ** Intervallschätzung ** von $ \ sigma $ (Welche mm bis welche mm ist die durchschnittliche wahrgenommene Streuung der "Illusionsmenge" $ \ sigma $?)

Ich will! Wir werden also mit der Bayes'schen Schätzmethode analysieren.

Aufbau

Als Ergebnis von 10 Versuchen des Mulleriya-Illusionsexperiments für einen Teilnehmer beträgt der ** Illusionsbetrag ** (Differenz zwischen der tatsächlichen Linienlänge und der wahrgenommenen Länge) für die Figur A. 23,21,19,22,20,17,22,18,20,25 Es scheint, dass es war. Dieses Mal werden wir diese Daten zur Analyse verwenden.

Betriebsumgebung

Analyse

Vorbereitung

import numpy as np
import scipy as sp
import scipy.stats as stats
import pandas as pd

from IPython.core.pylabtools import figsize
from matplotlib import pyplot as plt

Datenaufbereitung

observed_data_list =  [23,21,19,22,20,17,22,18,20,25]
observed_data = pd.Series(observed_data_list)

Ex-post-Facto-Verteilungsstichprobe

Eine Python-Bibliothek namens PyMC3 wird verwendet, um die posteriore Verteilung abzutasten. Dieses Mal nehmen wir ein Normalverteilungsmodell für die posteriore Verteilung an. Daher sind zwei Parameter zu erraten: $ \ mu $ und $ \ sigma $.

Hier bestand die Idee der Bayes'schen Schätzmethode darin, dass die Parameter auch eine Art Wahrscheinlichkeitsverteilung sind, keine festen Werte. Daher müssen die Parameter $ \ mu $ und $ \ sigma $ auch eine vorherige Verteilung annehmen. Die vorherige Verteilung des Populationsmittelwerts $ \ mu $ und der Populationsstandardabweichung $ \ sigma $ wird als einheitlich angenommen, und die Parameter werden in einem ausreichend weiten Bereich eingestellt, um nicht subjektiv zu sein.

Außerdem werden diesmal 25.000 Zufallszahlen generiert und 5 Ketten generiert.

import pymc3 as pm

with pm.Model() as model:
  #Vorherige Verteilung
  mu = pm.Uniform('mu', 10, 35)
  sigma = pm.Uniform('sigma', 1, 9)
  #Haftung
  ml = pm.Normal('ml', mu=mu, sd=sigma, observed=observed_data)
  #Probenahme
  trace_g = pm.sample(25000)

Verbrennen in

Die ersten 5000 generierten Zufallszahlen sind wahrscheinlich keine Zufallszahlen, die der posterioren Verteilung folgen, daher werden sie verworfen (Einbrennen).

chain_g = trace_g[5000:]

Darstellung der geschätzten posterioren Verteilung

pm.traceplot(chain_g)

plt.figure()

image.png

Berechnung der zusammenfassenden Statistik der posterioren Verteilung

pm.summary()

コメント 2020-01-31 182457.jpg

Mit pm.summary () können Sie die zusammenfassende Statistik der posterioren Verteilung berechnen. $ \ Hat {R} $ ist ein Index, mit dem beurteilt werden kann, ob eine Zufallszahl generiert wird, die mit dem MCMC-Modell übereinstimmt. Je näher sie an 1 liegt, desto besser.

Ergebnis der Analyse

1. Punktschätzung des Mittelwerts der posterioren Verteilung

Der Durchschnittswert der posterioren Verteilung wird genannt (= ** a posteriori erwartet, EAP). Aus der Tabelle geht hervor, dass der EAP für ** $ \ mu $ $ \ hat {\ mu_ {eap}} = $ 21,39 mm ** war.

2. Intervallschätzung des Mittelwerts der posterioren Verteilung

Unter Bezugnahme auf die 2,5% - und 97,5% -Punkte in der Tabelle betrug das zweiseitige Konfidenzintervall für ** $ \ mu $ [18,83 mm, 24,85 mm] **.

3. Punktschätzung der Standardabweichung der posterioren Verteilung

Aus der Tabelle geht hervor, dass der EAP für ** $ \ sigma $ $ \ hat {\ sigma_ {eap}} $ = 4,00 mm ** war.

4. Intervallschätzung der Standardabweichung der posterioren Verteilung

Unter Bezugnahme auf die 2,5% - und 97,5% -Punkte in der Tabelle betrug das bilaterale Verurteilungsintervall für ** $ \ sigma $ [2,00 mm, 6,61 mm] **.

Am Ende

Ich habe angefangen, Bayes'sche Statistik zu studieren, weil es eine Pause vom Hypothesentest war, aber als ich Bücher las, flogen Wörter wie ** Kette ** und ** Einbrennen ** herum und das Verfahren, bis ich die Parameter bekam. Weil es kompliziert ist, gibt es oft Orte wie ** "Was macht das denn?" ** auf dem Weg. Brennen Sie bis jetzt mit statistischer Software! Ausgehend von dem Körper, der das Ergebnis durch Hirntod berechnet hat, ** ist es notwendig, diese Art von Anstrengung nur durch Schätzung der Parameter der Bevölkerung zu unternehmen ... ** und das Gehirn steht kurz vor der Punktion.

[Zusatz] Anscheinend gibt es Diskussionen im Bereich der Bayes'schen Statistik aufgrund unterschiedlicher Ideen und Interpretationen. Daher wird empfohlen, den Inhalt dieses Artikels als einzelnes Memo anzuzeigen.

Verweise

[Hideki Toyoda "Neue überarbeitete Methode zur Unterbrechung der psychologischen Statistik aus dem Signifikanztest (Lehrmaterialien der Rundfunkuniversität)](https://www.amazon.co.jp/%E5%BF%83%E7%90%86%E7% B5% B1% E8% A8% 88% E6% B3% 95% E2% 80% 95% E6% 9C% 89% E6% 84% 8F% E6% 80% A7% E6% A4% 9C% E5% AE% 9A% E3% 81% 8B% E3% 82% 89% E3% 81% AE% E8% 84% B1% E5% 8D% B4-% E6% 94% BE% E9% 80% 81% E5% A4% A7 % E5% AD% A6% E6% 95% 99% E6% 9D% 90-% E8% B1% 8A% E7% 94% B0-% E7% A7% 80% E6% A8% B9 / dp / 4595317050 / ref = sr_1_1? __ mk_ja_JP =% E3% 82% AB% E3% 82% BF% E3% 82% AB% E3% 83% 8A & Schlüsselwörter =% E5% BF% 83% E7% 90% 86% E7% B5% B1% E8 % A8% 88% E6% B3% 95 & qid = 1580456205 & sr = 8-1) https://norimune.net/708

Recommended Posts

[Psychologische Statistik] Bayesianische Schätzung der "Illusionsmenge" in der Mulleriya-Illusion
Schätzung der gemischten Gaußschen Verteilung nach der varianten Bayes'schen Methode
Konzept des Bayes'schen Denkens (2) ... Bayes'sche Schätzung und Wahrscheinlichkeitsverteilung
"Lineare Regression" und "Probabilistische Version der linearen Regression" in Python "Bayes lineare Regression"
Höchstwahrscheinlich Schätzungsimplementierung des Themenmodells in Python
Implementierung der Bayes'schen Varianzschätzung des Themenmodells in Python