[PYTHON] Was ist statistische Modellierung?

Neulich so wie es ist Artikel zum Studium der Zeitreihenanalyse "Lernmethode für statistische Anfänger zum Erlernen der Zeitreihenanalyse" Als ich es traf, war ich überrascht über das Ausmaß der Reaktion.

Um ehrlich zu sein, dachte ich, dass die Zeitreihenanalyse ein ziemlich Nischenfeld ist (nur ungefähr 3 Leute würden es lesen). Ich frage mich, ob jeder, der zu Hause bleibt, darüber nachdenkt, mit FX mithilfe von Zeitreihenanalysen Gewinne zu erzielen, weil er frei ist.

Das Zustandsraummodell, das ein Thema der Zeitreihenanalyse ist, ist auch eine Art ** statistische Modellierung **, aber heute möchte ich noch einmal überdenken, was statistische Modellierung ist.

Apropos statistische Modellierung: Jeder liebt Midorimoto "Einführung in die statistische Modellierung für Datenanalyse-verallgemeinertes lineares Modell, hierarchisches Bayes'sches Modell, MCMC (Wissenschaft von Wahrscheinlichkeit und Information)" .jp / dp / 400006973X / ref = cm_sw_em_r_mt_dp_U_izQ9EbM450CQM).

Das grüne Buch ist sicherlich ein wunderbares Buch, aber nur das Lesen des grünen Buches klärt meine langjährige Frage: "Was ist statistische Modellierung und was ist keine statistische Modellierung?" Und "Was ist ein Modell in der Statistik?" Es war.

Außerdem habe ich viele wundervolle Artikel wie die folgenden gelesen, aber es ist schwierig zu schreiben und es fühlt sich wie eine Erklärung für Profis an.

Beginnen wir mit etwas Einfacherem und nähern uns der tiefen Frage: "Was ist statistische Modellierung überhaupt?"

Wer ist das Ziel dieses Artikels?

Dieser Artikel verschwendet ein ohnehin unbedeutendes Leben mit trivialen Fragen wie "Was ist Statistik?" "Was ist ein Modell in der Statistik?" "Was ist der Unterschied zwischen Statistik und maschinellem Lernen?" Es ist für alle, die es getan haben.

Der Inhalt ist auch bei geringen statistischen Kenntnissen verständlich.

Lass uns anfangen!

Was ist statistische Modellierung?

Der grundlegende Teil der statistischen Modellierung ist die Wahrscheinlichkeitsverteilung

Die Wahrscheinlichkeitsverteilung ist unverzichtbar, wenn es um statistische Modellierung geht. Wenn es um Wahrscheinlichkeitsverteilungen geht, werden die Leser an Normalverteilungen, Binomialverteilungen, Poisson-Verteilungen, Gammaverteilungen usw. denken.

650px-Normal_Distribution_PDF.svg.png ([Regelmäßige Verteilung], die als Kaiser der Welt der Wahrscheinlichkeitsverteilung regiert [(https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5% B8% 83)) Die göttliche Erscheinung von Herrn ……)

Viele Leute denken, dass das Lernen über die mathematischen Eigenschaften dieser Wahrscheinlichkeitsverteilungen Statistik ist.

Dies liegt wahrscheinlich daran, dass der Statistiklehrplan von Universitäten und dergleichen mit der mathematischen Theorie dieser typischen Wahrscheinlichkeitsverteilungen beginnt. (Deshalb denken viele Leute, dass Statistiken beschissen sind.)

Es ist jedoch nicht das Wesen der Statistik, wie die mathematische Theorie der Wahrscheinlichkeitsverteilung.

Wichtig ist: "Wie modellieren Sie in der Statistik eine Wahrscheinlichkeitsverteilung?"

In diesem Artikel wird durch die Klarstellung "Was ist statistische Modellierung und was ist nicht statistische Modellierung?" "Wie modellieren Sie in der Statistik eine Wahrscheinlichkeitsverteilung?" Mit anderen Worten, wir nähern uns der Frage: "Was ist statistische Modellierung?"

Lassen Sie uns nun anhand einiger Fragen klären, was statistische Modellierung ist und was nicht statistische Modellierung.

Was ist statistische Modellierung und was ist keine statistische Modellierung?

Q1. Ich habe Daten über die Größe aller Schüler der Mittelstufe in Japan. Ist es eine statistische Modellierung, um diese Durchschnittswerte und Abweichungen zu ermitteln?

** A1. Meiner Meinung nach ist es keine statistische Modellierung, nur den Mittelwert oder die Varianz zu berechnen. ** **.

Dies liegt daran, dass der Mittelwert und die Varianz ** wie sie sind ** aus den erhaltenen Daten berechnet werden können. Wenn Sie die Höhendaten für alle Schüler der Mittelstufe haben, können Sie sie alle addieren und durch die Anzahl der Personen dividieren, um den Durchschnitt zu berechnen. Wenn Sie den Durchschnitt berechnen können, können Sie auch die Varianz berechnen.

Mittelwert und Varianz werden sicherlich als Statistik bezeichnet. Das Konzept des Durchschnitts selbst ist ein wichtiger Index in der statistischen Weltanschauung. Man kann sagen, dass das Finden des Durchschnitts eine statistische Aktivität ist.

Aber ich denke nicht, dass es "Modellieren" ist.

Dann

Frage 2: Welche Art von Operation sollte an den Höhendaten aller Schüler der Mittelstufe in Japan durchgeführt werden, um sie als statistische "Modellierung" zu bezeichnen?

** A2. Ist die Form des Histogramms der beobachteten Daten wie eine Normalverteilung? Wenn Sie dem Histogramm die Normalverteilung überlagern, betreten Sie die Welt der statistischen Modellierung ** unnamed.png

Anscheinend kann die Höhenverteilung aller Schüler der Mittelstufe an die Normalverteilung angenähert werden. In diesem Sinne beginnen Sie mit der statistischen Modellierung.

Normalverteilung

\frac {1}{\sqrt{2\pi\sigma^2}} \exp(-\frac {(x-\mu)^2}{2\sigma^2})\\
\\
\mu:durchschnittlich\\
\sigma^2:Verteilt

Durch Anwenden des Mittelwerts und der Varianz der beobachteten Daten auf den Mittelwert und die Varianz von kann die Normalverteilung dem Histogramm sauber überlagert werden, wie in der obigen Abbildung gezeigt.

Betrachten Sie die Wahrscheinlichkeitsverteilung der erhaltenen Daten. Ich denke, dass diese Beobachtungsdaten aus der Normalverteilung generiert werden. Es ist bereits eine gute "statistische Modellierung".

Es scheint jedoch nicht, dass ich etwas sehr Bedeutendes getan habe, als ich mich "statistische Modellierung" nannte.

Frage 3: In welchen Situationen ist statistische Modellierung dann sinnvoll?

** A3. Als nur einige Daten zur Körpergröße von Jungen der Mittelstufe verfügbar waren, waren nicht alle japanischen Schüler der Mittelstufe **

Bisher haben wir angenommen, dass alle Schüler der Mittelstufe groß sind, aber im Bereich der tatsächlichen Datenanalyse haben wir selten Glück.

Wir haben ein hohes Maß an Nachdenken über die Durchschnitts- und Varianzwerte (Verteilung in der Bayes'schen Statistik) des Ganzen (Bevölkerung) aus den Daten (Stichprobe, Stichprobe) des ** kleinen Teils ** des Ganzen. Intellektuelle Aktivität ist erforderlich. Das wollen Statistiken tun.

Um aus den vorliegenden Daten über die Bevölkerung nachzudenken, müssen wir zunächst die Verteilung der Bevölkerung annehmen. Angenommen, die Größenverteilung aller Schüler der Mittelstufe in Japan ist eine Normalverteilung. Hier müssen wir die Verteilung der Bevölkerung annehmen, wobei nur die vorliegenden Daten als Hinweise dienen. Sie werden all Ihre Erfahrungen und Kenntnisse mobilisieren und die Wahrscheinlichkeitsverteilung auswählen, die Sie für am besten geeignet halten.

Dies ist eine statistische Modellierung. Und hier sind auch Statistiken schwierig. Der Grund, warum Sie die statistische Modellierung durchgeführt haben, ist auch, wo Ihre Subjektivität beteiligt ist. Ob die statistische Modellierung überzeugend ist oder nicht, hängt von der Subjektivität der Person ab, die auf Ihre Behauptung hört.

Wir werden hier nicht weiter gehen, aber die Welt des "Modellierens" lässt oft Raum für eine vollständige objektive Beurteilung.

Sobald eine statistische Modellierung möglich ist, wurden meiner Meinung nach die Höhendaten von 100 Personen aus der normalverteilten Bevölkerung (= Größe aller Schüler der Mittelstufe) und aus den vorliegenden Daten aus der Normalverteilung der Bevölkerung generiert Versuchen Sie sich die Form vorzustellen.

Dies ist eine "statistische" Schätzung, die auf statistischer Modellierung basiert.

Wenn die Verteilung der Bevölkerung normal ist, können Sie, sobald Sie den Mittelwert und die Varianz der Bevölkerung kennen, die Form der Verteilung zeichnen.

Ich werde hier nicht ins Detail gehen, Es ist statistisch gesehen die vernünftigste Schätzung, die durchschnittliche Größe aller Jungen der Mittelstufe in der Bevölkerung auf der Grundlage der durchschnittlichen Größe von 100 Personen zu schätzen. Intuitiv gibt es ein Gefühl der Überzeugung.

Varianzschätzungen sind etwas verwirrend. Wenn Sie also interessiert sind, versuchen Sie, selbst zu lernen.

Wenn Sie die Form der Normalverteilung der Bevölkerung kennen, können Sie sehen, wie wahrscheinlich es ist, dass die Daten für die 100 Personen dieses Mal erstellt wurden (wie selten es ist). Das heißt, wir haben eine probabilistische Möglichkeit, die vorliegenden Daten zu erklären.

Statistik und Wahrscheinlichkeitstheorie sind untrennbar miteinander verbunden. Dies liegt daran, dass die Statistik auch eine Studie ist, die sich mit der Wahrscheinlichkeit des Auftretens der erhaltenen Daten durch statistische Modellierung befasst.

Wenn Sie auf diese Weise statistische Modelle erstellen könnten, für welche Probleme würden Sie sich als Nächstes interessieren? Zum Beispiel möchten Sie es vielleicht mit Daten aus anderen Gruppen vergleichen (japanische Schülerinnen und Schüler). Eine Analysemethode, die im Vergleich zu anderen Gruppen eine aktive Rolle spielt, wird als "Test" bezeichnet. Der Test ist auch eine statistische Methode, die durch die Annahme der Wahrscheinlichkeitsverteilung der Bevölkerung ermöglicht wird.

Durch diese "statistische Modellierung" wächst eine reiche Welt darüber hinaus. Diese Welt heißt Statistik.

Beziehung zwischen Regressionsmodellen wie verallgemeinerten linearen Modellen und hier beschriebenen statistischen Modellen

Zusammenfassend lässt sich sagen, dass viele Menschen dies als statistische Modellierung betrachten. Lineares Modell (LM), verallgemeinertes lineares Modell (GLM), verallgemeinertes lineares gemischtes Modell (GLMM) Statistische Modelle sind lediglich Erweiterungen der hier beschriebenen statistischen Modellierung auf die Welt der Regression.

Der grundlegende Teil dieser Evolutionsmodelle ist die Wahrscheinlichkeitsverteilung.

Zum Beispiel sagte ich das Grünbuch, das ich am Anfang erwähnte, und Ich werde "Was ist statistische Modellierung" neu organisieren. Der Artikel befasst sich hauptsächlich mit Regressionsmodellen.

aber, Unter der Annahme einer wahren Verteilung schätzen Sie den Wert dieses Parameters (Mittelwert oder Varianz. In der Bayes'schen Statistik ist der Mittelwert oder die Varianz selbst kein Wert, sondern eine Verteilung) unter Verwendung der vorliegenden Daten. Das Wesen der statistischen Modellierung ist dasselbe.

Zusammenfassung

Heute habe ich über die Frage nachgedacht: "Was ist statistische Modellierung überhaupt?"

Ich habe viele Statistikbücher gelesen, Kein Buch war so langweilig über die Bedeutung von Modellen in der Statistik. Insbesondere war ich mir nicht ganz sicher, worüber ich hier sprach: "Was ist statistische Modellierung und was nicht?"

Also beschloss ich, meine Gedanken zusammenzufassen, weshalb ich diesen Artikel schrieb.

Wir hoffen, dass dieser Artikel als Referenz für diejenigen dient, die das gründliche Studium der "Statistik" in Frage stellen.

Recommended Posts

Was ist statistische Modellierung?
Wer ist Embedding?
[Pyro] Statistische Modellierung mit der probabilistischen Programmiersprache Pyro ~ What is Pyro ~
Datenanalyse, was machen Sie denn?
Was ist copy.copy ()
Was ist Django? .. ..
Was ist dotenv?
Was ist POSIX?
Was ist Linux?
Was ist klass?
Was ist SALOME?
Was ist Linux?
Was ist Python?
Was ist Hyperopt?
Was ist Linux?
Was ist Pyvenv?
Was ist __call__?
Was ist Linux?
Was ist Python?
Was sind Python Taples und * Args?
[Für Anfänger] Was ist in Deep Learning von Grund auf neu geschrieben?
Was ist eine Distribution?
Was ist Piotroskis F-Score?
Was ist Raspberry Pi?
[Python] Was ist Pipeline ...
Was ist das Calmar-Verhältnis?
Was ist ein Terminal?
[PyTorch Tutorial ①] Was ist PyTorch?
Was ist Hyperparameter-Tuning?
Was ist ein Hacker?
Was ist JSON? .. [Hinweis]
Wofür ist Linux?
Was ist ein Zeiger?
Was ist Ensemble-Lernen?
Was ist TCP / IP?
Was ist Pythons __init__.py?
Was ist ein Iterator?
Was ist UNIT-V Linux?
[Python] Was ist virtualenv?
Was ist maschinelles Lernen?
Welches ist schließlich das beliebteste Python-Visualisierungstool?
Immerhin ist es falsch, mit Python-Subprozess zu katzen.
Was ist denn damit passiert? "Hakidame" Motoi "Setsuna" Projekt
Was ist Mini Sam oder Mini Max?
Was ist eine logistische Regressionsanalyse?
Was ist die Aktivierungsfunktion?
Was ist eine Instanzvariable?
Was ist ein Entscheidungsbaum?
Was ist ein Kontextwechsel?
Was ist Google Cloud Dataflow?
[DL] Was ist Gewichtsverlust?
[Python] Python und Sicherheit - is Was ist Python?
Was ist ein Superuser?
Wettbewerbsprogrammierung ist was (Bonus)
[Python] * args ** Was ist kwrgs?
Was ist ein Systemaufruf?
[Definition] Was ist ein Framework?
Was ist die Schnittstelle für ...
Was ist Project Euler 3-Beschleunigung?