https://bellcurve.jp/statistics/course/9208.html
Gemäß der obigen URL ist die Chi-Quadrat-Verteilung die Summe der Quadrate stochastischer Variablen, die einer Standardnormalverteilung folgen. Selbst wenn Sie sich die Distribution ansehen, können Sie sie nicht wirklich spüren. Probieren Sie es also mit Jupyter aus.
Generieren Sie eine stochastische Variable gemäß N (0,1) gemäß der Definition, führen Sie mehrere Versuche durch, die Summe der Quadrate zu nehmen, und bestätigen Sie die Verteilung. Die linke Seite der Abbildung unten ist eine Zeichnung von KDE. Die rechte Seite ist das Histogramm.
In der Abbildung links kann bestätigt werden, dass fast die gleiche Form wie die Verteilung reproduziert werden kann. Die Abbildung rechts hat fast die gleiche Form. Es fühlt sich etwas seltsam an, aber es scheint näher zu sein, wenn Sie die Anzahl der Samples erhöhen oder die vertikale und horizontale Achse anpassen.
Daraus könnte ich ein wenig verstehen, dass "die Chi-Quadrat-Verteilung die Summe der Quadrate der stochastischen Variablen ist, die der Standardnormalverteilung folgen". Wenn der Freiheitsgrad 1 ist, nimmt er oft einen Wert nahe 0 an, aber wenn der Freiheitsgrad zunimmt, wird die Summe von ihnen genommen, so dass sich die Spitze der Verteilung allmählich nach rechts verschiebt. Unter der Annahme, dass der Durchschnittswert bei einem Freiheitsgrad von 1 1 ist (obwohl dies aus der Abbildung schwer zu verstehen ist), ist der Freiheitsgrad die Anzahl der unabhängigen Standardnormalverteilungen, sodass der erwartete Wert dem Freiheitsgrad entspricht. Es ist verständlich, es zu tun.
Auf der anderen Seite bleibt die Frage: "Na und?" Nach der Untersuchung war das Folgende leicht zu verstehen.
https://atarimae.biz/archives/13511
Mit dem Stichprobenmittel allein kann jedoch nicht geschlossen werden, dass "wenn Sie die Würfel 120 Mal werfen, erhalten Sie nur 1 und 6", sondern "es ist schwer, sich einen Zufall vorzustellen".
Natürlich kann die Vorspannung der Probe nicht nur durch den "Durchschnitt" der Probe ausgedrückt werden. Daher ist es nicht möglich, auf den Widerspruch von "Ergebnissen hinzuweisen, die nur im Durchschnitt angemessen, aber eindeutig voreingenommen sind". Die Idee, dies zu lösen, besteht darin, "die Verteilung der Quadratsumme (≈ Varianz) der Stichprobe zu bestätigen", und man kann sagen, dass das Werkzeug zu ihrer Überprüfung die Chi-Quadrat-Verteilung ist.
Bisher hatte ich nur ein oberflächliches Verständnis, aber ich habe das Gefühl, dass sich mein Verständnis der Chi-Quadrat-Verteilung vertieft hat.
Die Notizbücher, die ich verwendet habe, sind wie folgt.
https://github.com/takotaketako/public-notebook/blob/master/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E5%88%86%E5%B8%83.ipynb
Recommended Posts