[PYTHON] Après tout, qu'est-ce que la modélisation statistique?

L'autre jour, comme c'est Article sur la façon d'étudier l'analyse des séries chronologiques "Méthode d'étude pour les débutants en statistique pour apprendre l'analyse des séries chronologiques" Quand je l'ai frappé, j'ai été surpris de l'ampleur de la réponse.

Pour être honnête, je pensais que l'analyse de séries chronologiques était un domaine assez spécialisé (seulement 3 personnes environ le liraient). Je me demande si tous ceux qui restent à la maison envisagent de faire des bénéfices avec FX en utilisant l'analyse de séries chronologiques, car ils sont gratuits.

Le modèle d'espace d'état, qui est un sujet d'analyse de séries temporelles, est aussi une sorte de ** modélisation statistique **, mais aujourd'hui je voudrais revenir sur "ce qu'est la modélisation statistique".

En parlant de modélisation statistique, tout le monde aime Midorimoto "Introduction à la modélisation statistique pour l'analyse de données - modèle linéaire généralisé, modèle bayésien hiérarchique, MCMC (science des probabilités et de l'information)" .jp / dp / 400006973X / ref = cm_sw_em_r_mt_dp_U_izQ9EbM450CQM).

Le livre vert est certainement un livre merveilleux, mais la simple lecture du livre vert clarifie ma question de longue date de "qu'est-ce que la modélisation statistique et ce qui n'est pas la modélisation statistique" et "qu'est-ce qu'un modèle en statistique?" C'était.

De plus, j'ai lu beaucoup d'articles merveilleux comme les suivants, mais c'est difficile à écrire et cela ressemble à une explication pour les professionnels.

Commençons par quelque chose d'un peu plus simple et abordons la question profonde, "Qu'est-ce que la modélisation statistique après tout?"

Qui est la cible de cet article

Cet article gaspille une vie déjà insignifiante sur des questions triviales telles que "Qu'est-ce que les statistiques?" "Qu'est-ce qu'un modèle en statistique?" "Quelle est la différence entre les statistiques et l'apprentissage automatique?" C'est pour tous ceux qui l'ont fait.

Le contenu est compréhensible même avec une faible connaissance des statistiques.

Commençons!

Qu'est-ce que la modélisation statistique?

La partie fondamentale de la modélisation statistique est la distribution de probabilité

La distribution des probabilités est indispensable quand on parle de modélisation statistique. En ce qui concerne les distributions de probabilité, les lecteurs penseront aux distributions normales, aux distributions binomiales, aux distributions de Poisson, aux distributions gamma, etc.

650px-Normal_Distribution_PDF.svg.png ([Distribution régulière] régnant en tant qu'empereur du monde de la distribution des probabilités ((https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5% B8% 83)) L'apparition divine de M. ……)

Beaucoup de gens pensent que l'apprentissage des propriétés mathématiques de ces distributions de probabilités est une statistique.

Ceci est probablement dû au fait que le programme de statistiques des universités et autres commence par la théorie mathématique de ces distributions de probabilité typiques. (C'est pourquoi beaucoup de gens pensent que les statistiques sont merdiques.)

Cependant, ce n'est pas l'essence de la statistique, comme la théorie mathématique de la distribution des probabilités.

L'important est: "En statistique, comment modélisez-vous en utilisant une distribution de probabilité?"

Dans cet article, en clarifiant "ce qu'est la modélisation statistique et ce qui n'est pas la modélisation statistique", "En statistique, comment modélisez-vous en utilisant une distribution de probabilité?" En d'autres termes, nous abordons la question "Qu'est-ce que la modélisation statistique?"

Maintenant, clarifions ce qu'est la modélisation statistique et ce qui n'est pas la modélisation statistique à travers quelques questions.

Qu'est-ce que la modélisation statistique et ce qui n'est pas la modélisation statistique

Q1. J'ai des données sur la taille de tous les garçons du premier cycle du secondaire au Japon. Est-ce une modélisation statistique pour trouver ces moyennes et ces variances?

** A1. À mon avis, le simple calcul de la moyenne ou de la variance n'est pas une modélisation statistique. ** **

En effet, la moyenne et la variance peuvent être calculées ** telles quelles ** à partir des données obtenues. Si vous avez les données de taille pour tous les garçons du premier cycle du secondaire, vous pouvez les ajouter tous et les diviser par le nombre de personnes pour calculer la moyenne. Si vous pouvez calculer la moyenne, vous pouvez également calculer la variance.

Certes, la moyenne et la variance sont appelées statistiques. Le concept de moyenne lui-même est un indice important dans la vision statistique du monde, On peut dire que trouver la moyenne est une activité statistique.

Mais je ne pense pas que ce soit du «modelage».

Puis

Q 2. Quel type d'opération devrait être effectué sur les données de taille de tous les garçons du premier cycle du secondaire au Japon pour l'appeler "modélisation" statistique?

** A2. La forme de l'histogramme des données observées ressemble-t-elle à une distribution normale? En pensant que si vous superposez la distribution normale à l'histogramme, vous entrez dans le monde de la modélisation statistique ** unnamed.png

Apparemment, la distribution de taille de tous les garçons du premier cycle du secondaire peut être rapprochée de la distribution normale. Dans cet esprit, vous commencez la modélisation statistique.

distribution normale

\frac {1}{\sqrt{2\pi\sigma^2}} \exp(-\frac {(x-\mu)^2}{2\sigma^2})\\
\\
\mu:moyenne\\
\sigma^2:Distribué

En appliquant la moyenne et la variance des données observées à la moyenne et à la variance de, la distribution normale peut être parfaitement superposée à l'histogramme, comme le montre la figure ci-dessus.

Considérez la distribution de probabilité des données obtenues. Je pense que ces données d'observation sont générées à partir de la distribution normale. C'est déjà une bonne «modélisation statistique».

Cependant, il ne semble pas que j'ai fait quelque chose de très significatif quand je me suis appelé «modélisation statistique».

Q3 Dans quelles situations la modélisation statistique a-t-elle un sens?

** A3. Lorsque seules les données sur la taille de certains garçons du premier cycle du secondaire étaient disponibles, ce ne sont pas tous les garçons du premier cycle du secondaire au Japon **

Jusqu'à présent, nous avons supposé que tous les garçons du premier cycle du secondaire avaient la taille, mais dans le domaine de l'analyse des données, nous avons rarement de la chance.

Nous réfléchissons fortement aux valeurs de la moyenne et de la variance (distribution en statistique bayésienne) de l'ensemble (population) à partir des données (échantillons, échantillons) de ** petite partie ** de l'ensemble. Une activité intellectuelle est requise. C'est ce que veulent faire les statistiques.

Pour réfléchir à la population à partir des données disponibles, nous devons d'abord supposer la répartition de la population. Par exemple, supposons que la distribution de la taille de tous les garçons du premier cycle du secondaire au Japon soit une distribution normale. Ici, nous devons supposer la distribution de la population, avec seulement les données disponibles comme indices. Vous mobiliserez toute votre expérience et vos connaissances et choisirez la distribution de probabilité que vous jugez la plus appropriée.

C'est de la modélisation statistique. Et c'est aussi là que les statistiques sont difficiles. La raison pour laquelle vous avez fait la modélisation statistique est également là où votre subjectivité entre en jeu. Et si la modélisation statistique est convaincante ou non dépend de la subjectivité de la personne qui écoute votre demande.

Nous n'irons pas plus loin ici, mais le monde de la «modélisation» laisse souvent place au jugement sur une base objective complète.

Une fois que la modélisation statistique est possible, je pense que les données de taille de 100 personnes à portée de main ont été générées à partir de la population normalement distribuée (= taille de tous les garçons du premier cycle du secondaire), et à partir des données disponibles, de la distribution normale de la population Essayez d'imaginer la forme.

Il s'agit d'une estimation "statistique" basée sur une modélisation statistique.

Si la distribution de la population est normale, une fois que vous connaissez la moyenne et la variance de la population, vous pouvez dessiner la forme de la distribution.

Je n'entrerai pas dans les détails ici, C'est statistiquement l'estimation la plus raisonnable pour estimer la taille moyenne de tous les garçons du premier cycle du secondaire dans la population sur la base de la taille moyenne de 100 personnes présentes. Intuitivement, il y a un sentiment de conviction.

Les estimations de la variance sont un peu déroutantes, donc si vous êtes intéressé, essayez d'étudier par vous-même.

Si vous connaissez la forme de la distribution normale de la population, vous pouvez voir quelle est la probabilité que les données pour les 100 personnes cette fois aient été produites (à quel point elles sont rares). Cela signifie que nous avons une manière probabiliste d'expliquer les données disponibles.

Les statistiques et la théorie des probabilités sont indissociablement liées. En effet, la statistique est également une étude qui traite de la probabilité d'occurrence des données obtenues par modélisation statistique.

Si vous pouviez faire de la modélisation statistique de cette manière, à quel type de problèmes vous intéresseriez-vous ensuite? Par exemple, vous voudrez peut-être le comparer avec des données d'autres groupes (lycéens japonais et lycéens). Une méthode analytique qui joue un rôle actif en comparaison avec d'autres groupes est appelée un «test». Le test est également une méthode statistique rendue possible en supposant la distribution de probabilité de la population.

En faisant de la «modélisation statistique» de cette manière, un monde riche s'étend au-delà de cela. Ce monde s'appelle les statistiques.

Relation entre les modèles de régression tels que les modèles linéaires généralisés et la modélisation statistique décrite ici

En conclusion, beaucoup de gens y voient une modélisation statistique. Modèle linéaire (LM), modèle linéaire généralisé (GLM), modèle linéaire mixte généralisé (GLMM) Les modèles statistiques tels que ne sont que des extensions de la modélisation statistique décrite ici au monde de la régression.

La partie fondamentale de ces modèles évolutifs est la distribution de probabilité.

Par exemple, j'ai dit le livre vert que j'ai mentionné au début et je vais réorganiser «ce qu'est la modélisation statistique». L'article traite principalement des modèles de régression.

mais, En supposant une distribution vraie, estimez la valeur de ce paramètre (moyenne ou variance. Dans les statistiques bayésiennes, la moyenne ou la variance elle-même n'est pas une valeur mais une distribution) en utilisant les données disponibles. L'essence de la modélisation statistique est la même.

Résumé

Aujourd'hui, j'ai pensé à la question "Qu'est-ce que la modélisation statistique après tout?"

J'ai lu beaucoup de livres de statistiques, Aucun livre n'a été aussi fastidieux sur la signification des modèles en statistique. En particulier, je n'étais pas tout à fait sûr de ce dont je parlais ici, «qu'est-ce que la modélisation statistique et ce qui ne l'est pas».

J'ai donc décidé de résumer mes pensées, raison pour laquelle j'ai écrit cet article.

Nous espérons que cet article servira de référence à ceux qui remettent en question l'étude approfondie des «statistiques».

Recommended Posts

Après tout, qu'est-ce que la modélisation statistique?
Après tout, qui est l'intégration?
[Pyro] Modélisation statistique par le langage de programmation probabiliste Pyro ① ~ Qu'est-ce que Pyro ~
Analyse des données, que faites-vous après tout?
Qu'est-ce que copy.copy ()
Qu'est-ce que Django? .. ..
Qu'est-ce que dotenv?
Qu'est-ce que POSIX
Qu'est-ce que Linux
Qu'est-ce que le klass?
Qu'est-ce que SALOME?
Qu'est-ce que Linux?
Qu'est-ce que python
Qu'est-ce que l'hyperopt?
Qu'est-ce que Linux
Qu'est-ce que pyvenv
Qu'est-ce que __call__
Qu'est-ce que Linux
Qu'est-ce que Python
Que sont les taples et * args python après tout?
[Pour les débutants] Après tout, qu'est-ce qui est écrit dans Deep Learning fait à partir de zéro?
Qu'est-ce qu'une distribution?
Qu'est-ce que le F-Score de Piotroski?
Qu'est-ce que Raspberry Pi?
[Python] Qu'est-ce que Pipeline ...
Qu'est-ce que Calmar Ratio?
Qu'est-ce qu'un terminal?
[Tutoriel PyTorch ①] Qu'est-ce que PyTorch?
Qu'est-ce que le réglage des hyper paramètres?
Qu'est-ce qu'un hacker?
Qu'est-ce que JSON? .. [Remarque]
À quoi sert Linux?
Qu'est-ce qu'un pointeur?
Qu'est-ce que l'apprentissage d'ensemble?
Qu'est-ce que TCP / IP?
Qu'est-ce que __init__.py de Python?
Qu'est-ce qu'un itérateur?
Qu'est-ce que UNIT-V Linux?
[Python] Qu'est-ce que virtualenv
Qu'est-ce que l'apprentissage automatique?
Quel est l'outil de visualisation Python le plus populaire après tout?
Après tout, il est faux de chat avec le sous-processus python.
Qu'est-il arrivé à ça après tout? Projet "Hakidame" Motoi "Setsuna"
Qu'est-ce que Mini Sam ou Mini Max?
Qu'est-ce que l'analyse de régression logistique?
Quelle est la fonction d'activation?
Qu'est-ce qu'une variable d'instance?
Qu'est-ce qu'un arbre de décision?
Qu'est-ce qu'un changement de contexte?
Qu'est-ce que Google Cloud Dataflow?
[DL] Qu'est-ce que la décroissance du poids?
[Python] Python et sécurité-① Qu'est-ce que Python?
Qu'est-ce qu'un super utilisateur?
La programmation du concours, c'est quoi (bonus)
[Python] * args ** Qu'est-ce que kwrgs?
Qu'est-ce qu'un appel système
[Définition] Qu'est-ce qu'un cadre?
A quoi sert l'interface ...
Qu'est-ce que Project Euler 3 Acceleration?