[PYTHON] Pour ceux qui analysent dans l'atmosphère (modèle de régression linéaire 1)

introduction

En supposant que les données obtenues sont la valeur réalisée du modèle de régression linéaire </ strong> Estimer le coefficient du modèle de régression linéaire par la méthode des moindres carrés </ strong> et les résultats d'estimation suivants Et le résultat du test est obtenu.

(Ceci est un prélude à expliquer. À titre d'exemple, j'utilise la bibliothèque python et les données supprimées.)

import pandas as pd
import statsmodels.api as sm
 
#Évolution de la moyenne mensuelle de la concentration de dioxyde de carbone dans le monde
# (https://www.data.go.jp/data/dataset/mlit_20180523_0032)Que
df_co2 = pd.read_csv('co2.csv')

#La concentration mondiale de dioxyde de carbone n'augmente-t-elle pas d'année en année?#

#Tous les 384 points comme variables explicatives(0~383)utilisation.
df_co2['x'] = df_co2.index
X = df_co2.loc[:, ['x']]
 
#Concentration mensuelle de dioxyde de carbone comme variable objective(ppm)Utilisez la moyenne.
Y = df_co2.loc[:, ['ave_ppm']]
 
#Estimer les coefficients du modèle de régression linéaire en utilisant la méthode des moindres carrés.(Que faites-vous des données chronologiques ...)
model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()
print(results.summary())
OLS Regression Results                            
==============================================================================
Dep. Variable:                ave_ppm   R-squared:                       0.983
Model:                            OLS   Adj. R-squared:                  0.983
Method:                 Least Squares   F-statistic:                 2.195e+04
Date:                Tue, 24 Dec 2019   Prob (F-statistic):               0.00
Time:                        00:01:54   Log-Likelihood:                -840.53
No. Observations:                 384   AIC:                             1685.
Df Residuals:                     382   BIC:                             1693.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        341.6819      0.221   1549.122      0.000     341.248     342.116
x              0.1477      0.001    148.154      0.000       0.146       0.150
==============================================================================
Omnibus:                       17.898   Durbin-Watson:                   0.198
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               10.180
Skew:                          -0.229   Prob(JB):                      0.00616
Kurtosis:                       2.347   Cond. No.                         442.
==============================================================================

Ces dernières années, le nombre de personnes qui l'essaient réellement en l'appelant analyse a augmenté. Cependant, je pense que bon nombre de personnes comprennent la signification de ce résultat d'estimation. (préjudice)

Je pense qu'il y a beaucoup de gens qui disent vaguement: "C'est une variable explicative significative parce que la valeur p est inférieure à 5%! Comme supposé!" Et en fait, ne comprennent pas le sens de ce qu'ils font. Beaucoup de gens pensent que la signification statistique peut être calculée automatiquement tant qu'il existe des données dans tous les cas. Il se peut que vous ne compreniez pas la signification de la signification statistique même si vous recherchez des résultats significatifs. etc

Le modèle de régression linéaire est un modèle statistique ésotérique </ fort> qui nécessite des connaissances de base considérables pour être compris, mais avec des données et des outils d'analyse, les résultats de l'analyse peuvent être facilement générés. Je pense que cet écart est à l'origine de cette situation. ici,

  • "En supposant que les données obtenues sont la valeur de réalisation du modèle de régression linéaire </ strong>, estimer </ strong> le coefficient du modèle de régression linéaire par la méthode du carré minimum et la suivante Vous obtiendrez l'estimation et les résultats des tests. " «Bien que le modèle de régression linéaire soit un modèle statistique ésotérique </ strong> qui nécessite des connaissances de base considérables pour être compris."

D'un autre côté, il peut y avoir des gens qui pensent: "Eh bien, est-ce vrai?" Ou "Que voulez-vous dire?" Cet article s'adresse à ces personnes. (Ou pour ceux qui se demandent comment interpréter ce qui a été produit avec un outil d'analyse.)

La première fois (modèle de régression linéaire 1) est "Les données obtenues sont la valeur réalisée du modèle de régression linéaire." J'expliquerai la signification de.

Que signifie «les données obtenues sont la valeur réalisée du modèle de régression linéaire»?

Tout d'abord, de nombreuses personnes peuvent ne pas comprendre que le modèle de régression linéaire est un modèle stochastique. Le modèle de régression linéaire a une variable explicative

y_j = {\beta}_0 + {\beta}_{1}{x_{1j}}  + {u_j} \\
u_j  \sim N(0, \sigma^{2}), \quad i.i.d.\\
(j = 1, \cdots , n)\\

Peut être exprimé comme. [^ 1] $ y $ est la variable objective et $ x_ {1} $ est le modèle de régression linéaire des variables explicatives. Ce modèle de régression linéaire est l'un des modèles </ strong> qui peuvent être appliqués lorsque des données $ n $ pour une paire de $ y $ et $ x_ {1} $ sont obtenues. Veuillez noter que les données réelles obtenues ne peuvent pas toujours être expliquées par ce modèle.

"$ U_j \ sim N (0, \ sigma ^ {2}), \ quad iid " signifie " u_j $ fait la moyenne de $ 0 $ indépendamment les uns des autres entre chaque $ j $, et distribue $ \ sigma ^ {2} $ , Est une variable stochastique qui suit la distribution normale de. " ($ X_ {1} $ n'est pas une variable stochastique dans le modèle de régression linéaire.) En écoutant l'explication du modèle de régression linéaire jusqu'à présent, qu'est-ce qu'une variable stochastique? Qu'est-ce que l'indépendance? Si vous avez des questions, vous ne disposez toujours pas des connaissances de base nécessaires pour comprendre le modèle de régression linéaire. Tout d'abord, comprenons le sens des termes. ~~ C'est ennuyeux ~~ Je ne vais pas l'expliquer ici car cela s'écarte du sujet principal. Veuillez lire et comprendre les autres sites et manuels. [^ 2]

En passant, comme vous pouvez le voir à partir du modèle de régression linéaire ci-dessus, le modèle de régression linéaire est un modèle stochastique dans lequel la variable stochastique "$ u_j \ sim N (0, \ sigma ^ {2}), \ quad iid $" est incluse. C'est pourquoi. C'est un modèle qui contient des variables stochastiques. Ce terme $ u_j $ est appelé le terme d'erreur.

Les gens qui ne comprennent pas souvent ne voient pas ce terme d'erreur et comprennent mal que $ y $ n'est représenté que par la somme linéaire de $ \ beta_i $ et $ x $. [^ 3] C'est un modèle qui vous fait penser que c'est un modèle simple seulement ici. Je pense que c'est un malentendu car je ne comprends pas bien que la valeur des données obtenue selon le modèle de régression linéaire est la valeur réalisée de la variable stochastique.

A titre d'exemple concret, supposons que le modèle de régression linéaire que $ y_j $ suit soit $ y_j = 1 + 2 {x_ {1j}} + {u_j} $. À ce moment, si $ {x_ {1j}} = 3 $, qu'est-ce que $ y_j $? Ceux qui ne comprennent pas </ strong> ici diront que $ y_j = 7 $. Bien sûr, c'est faux. Ceux qui répondent à cela ne comprennent pas que $ y_j $ est une variable stochastique. Correctement, $ y_j = 7 + {u_j} $, donc la valeur de $ y_j $ est déterminée par la valeur de $ {u_j} $. En d'autres termes, la valeur de $ y_j $ change de temps en temps comme la valeur des dés. Cette expression est utilisée, telle que "La valeur du jet qui lance les dés est la valeur réelle des dés." La valeur de $ y_j $ réellement obtenue comme valeur de données est la valeur obtenue selon la distribution de probabilité supposée. (Si $ y_j = 7 + {u_j} $, la distribution de probabilité que $ y_j $ suit est $ N (7, \ sigma ^ {2}) $.)

Ce qui précède est l'explication de la signification que «les données obtenues sont la valeur réalisée du modèle de régression linéaire». Nous vous serions reconnaissants de bien vouloir nous faire part de vos questions, de signaler des erreurs, etc.

la prochaine fois

La prochaine fois (modèle de régression linéaire 2) "Vous ne pouvez" assumer "que le modèle. 』
Je vais expliquer cela. Je vous remercie.

[^ 1]: Sans supposer un modèle dans lequel le terme d'erreur suit une distribution normale, le coefficient estimé le moins carré ne suit pas la distribution normale, et le rapport de la somme des carrés des résidus à $ \ sigma ^ 2 $ ne suit pas la distribution du chi carré Je ne peux pas faire le test $ t $ que j'ai fait au tout début ...

[^ 2]: Je pense que Kubogawa Statistics (les bases de la statistique mathématique moderne) est un manuel facile à comprendre. Je ne vous dis pas de comprendre la théorie de la mesure. Je ne comprends pas non plus la théorie de la mesure. Cependant, j'aimerais comprendre le concept de distribution de probabilité.

[^ 3]: J'étais comme ça.

Recommended Posts