[PYTHON] Für diejenigen, die in der Atmosphäre analysieren (lineares Regressionsmodell 1)

Einführung

Angenommen, die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells. </ Strong> Schätzen Sie den Koeffizienten des linearen Regressionsmodells mit der Methode der kleinsten Quadrate </ strong> und den folgenden Schätzergebnissen Und das Testergebnis wird erhalten.

(Dies ist ein Auftakt zur Erklärung. Als Beispiel verwende ich die Python-Bibliothek und die abgelegten Daten.)

import pandas as pd
import statsmodels.api as sm
 
#Änderungen im monatlichen Durchschnitt der Kohlendioxidkonzentration in der Welt
# (https://www.data.go.jp/data/dataset/mlit_20180523_0032)Als
df_co2 = pd.read_csv('co2.csv')

#Steigt die weltweite Kohlendioxidkonzentration nicht von Jahr zu Jahr?#

#Alle 384 Punkte als erklärende Variablen(0~383)verwenden.
df_co2['x'] = df_co2.index
X = df_co2.loc[:, ['x']]
 
#Monatliche Kohlendioxidkonzentration als Zielvariable(ppm)Verwenden Sie den Durchschnitt.
Y = df_co2.loc[:, ['ave_ppm']]
 
#Schätzen Sie die Koeffizienten des linearen Regressionsmodells mit der Methode der kleinsten Quadrate.(Was machen Sie mit Zeitreihendaten ...)
model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()
print(results.summary())
OLS Regression Results                            
==============================================================================
Dep. Variable:                ave_ppm   R-squared:                       0.983
Model:                            OLS   Adj. R-squared:                  0.983
Method:                 Least Squares   F-statistic:                 2.195e+04
Date:                Tue, 24 Dec 2019   Prob (F-statistic):               0.00
Time:                        00:01:54   Log-Likelihood:                -840.53
No. Observations:                 384   AIC:                             1685.
Df Residuals:                     382   BIC:                             1693.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        341.6819      0.221   1549.122      0.000     341.248     342.116
x              0.1477      0.001    148.154      0.000       0.146       0.150
==============================================================================
Omnibus:                       17.898   Durbin-Watson:                   0.198
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               10.180
Skew:                          -0.229   Prob(JB):                      0.00616
Kurtosis:                       2.347   Cond. No.                         442.
==============================================================================

In den letzten Jahren hat die Anzahl der Personen, die es tatsächlich versuchen, indem sie es Analyse nennen, zugenommen. Ich denke jedoch, dass einige Leute die Bedeutung dieses Schätzergebnisses verstehen. (Vorurteil)

Ich denke, es gibt viele Leute, die vage sagen: "Es ist eine aussagekräftige erklärende Variable, weil der p-Wert kleiner als 5% ist! Wie vermutet!" Und tatsächlich nicht verstehen, was sie tun. Viele Leute denken, dass die statistische Signifikanz automatisch berechnet werden kann, solange es auf jeden Fall Daten gibt. Möglicherweise verstehen Sie die Bedeutung der statistischen Signifikanz nicht, obwohl Sie signifikante Ergebnisse erzielen. etc

Das lineare Regressionsmodell ist ein esoterisches </ strong> statistisches Modell, für dessen Verständnis erhebliche Grundkenntnisse erforderlich sind. Mit Daten und Analysewerkzeugen können die Analyseergebnisse jedoch problemlos ausgegeben werden. Ich denke, diese Lücke verursacht diese Situation. Hier,

  • "Unter der Annahme, dass die erhaltenen Daten der Realisierungswert des linearen Regressionsmodells </ strong> sind, schätzen </ strong> den Koeffizienten des linearen Regressionsmodells nach der Minimum-Square-Methode und den folgenden Sie erhalten die Schätz- und Testergebnisse. " ―― "Obwohl das lineare Regressionsmodell ein esoterisches </ strong> statistisches Modell ist, dessen Verständnis beträchtliche Grundkenntnisse erfordert."

Auf der anderen Seite kann es einige Leute geben, die denken: "Nun, ist das so?" Oder "Was meinst du?" Dieser Artikel ist für solche Leute. (Oder für diejenigen, die sich fragen, wie sie die Ausgabe mit einem Analysetool interpretieren sollen.)

Das erste Mal (lineares Regressionsmodell 1) ist "Die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells." Ich werde die Bedeutung von erklären.

Was ist "die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells"?

Erstens verstehen viele Menschen möglicherweise nicht, dass das lineare Regressionsmodell ein stochastisches Modell ist. Das lineare Regressionsmodell hat eine erklärende Variable

y_j = {\beta}_0 + {\beta}_{1}{x_{1j}}  + {u_j} \\
u_j  \sim N(0, \sigma^{2}), \quad i.i.d.\\
(j = 1, \cdots , n)\\

Kann ausgedrückt werden als. [^ 1] $ y $ ist die Zielvariable und $ x_ {1} $ ist das lineare Regressionsmodell der erklärenden Variablen. Dieses lineare Regressionsmodell ist eines der Modelle </ strong>, die angewendet werden können, wenn $ n $ Daten für ein Paar von $ y $ und $ x_ {1} $ erhalten werden. Bitte beachten Sie, dass die tatsächlich erhaltenen Daten von diesem Modell nicht immer erklärt werden können.

"$ U_j \ sim N (0, \ sigma ^ {2}), \ quad iid " bedeutet " u_j $ mittelt $ 0 $ unabhängig voneinander zwischen jedem $ j $ und verteilt $ \ sigma ^ {2} $ , Ist eine stochastische Variable, die der Normalverteilung von folgt. " ($ X_ {1} $ ist keine stochastische Variable im linearen Regressionsmodell.) Was ist eine stochastische Variable, wenn man sich die bisherige Erklärung des linearen Regressionsmodells anhört? Was ist Unabhängigkeit? Wenn Sie Fragen haben, verfügen Sie immer noch nicht über die Grundkenntnisse, die Sie zum Verständnis des linearen Regressionsmodells benötigen. Lassen Sie uns zunächst die Bedeutung der Begriffe verstehen. ~~ Es ist nervig ~~ Ich werde es hier nicht erklären, weil es vom Hauptthema abweicht. Bitte lesen und verstehen Sie andere Websites und Lehrbücher. [^ 2]

Übrigens ist, wie Sie aus dem obigen linearen Regressionsmodell sehen können, das lineare Regressionsmodell ein stochastisches Modell, in dem die stochastische Variable "$ u_j \ sim N (0, \ sigma ^ {2}), \ quad iid $" enthalten ist. Deswegen. Es ist ein Modell, das stochastische Variablen enthält. Dieser Begriff $ u_j $ wird als Fehlerbegriff bezeichnet.

Leute, die nicht oft verstehen, sehen diesen Fehlerbegriff nicht und denken fälschlicherweise, dass $ y $ nur durch die lineare Summe von $ \ beta_i $ und $ x $ dargestellt wird. [^ 3] Es ist ein Muster, das Sie denken lässt, dass es nur hier ein einfaches Modell ist. Ich halte dies für ein Missverständnis, dass die nach dem linearen Regressionsmodell erhaltenen Datenwerte als realisierte Werte der stochastischen Variablen nicht gut verstanden werden.

Nehmen wir als konkretes Beispiel an, dass das lineare Regressionsmodell, dem $ y_j $ folgt, $ y_j = 1 + 2 {x_ {1j}} + {u_j} $ ist. Wenn zu diesem Zeitpunkt $ {x_ {1j}} = 3 $ ist, was ist $ y_j $? Diejenigen, die nicht </ strong> hier gut verstehen, werden sagen, dass $ y_j = 7 $. Das ist natürlich falsch. Diejenigen, die darauf antworten, verstehen nicht, dass $ y_j $ eine stochastische Variable ist. Richtig, $ y_j = 7 + {u_j} $, also wird der Wert von $ y_j $ durch den Wert von $ {u_j} $ bestimmt. Mit anderen Worten, der Wert von $ y_j $ ändert sich von Zeit zu Zeit wie der Wert der Würfel. Dieser Ausdruck wird verwendet, z. B. "Der Wert des Würfelwurfs ist der tatsächliche Wert des Würfels." Der tatsächlich als Datenwert erhaltene Wert von $ y_j $ ist der Wert, der gemäß der angenommenen Wahrscheinlichkeitsverteilung erhalten wird. (Wenn $ y_j = 7 + {u_j} $, ist die Wahrscheinlichkeitsverteilung, der $ y_j $ folgt, $ N (7, \ sigma ^ {2}) $.)

Das Obige ist die Erklärung der Bedeutung, dass "die erhaltenen Daten der realisierte Wert des linearen Regressionsmodells sind". Wir würden uns freuen, wenn Sie uns Ihre Fragen stellen, auf Fehler hinweisen usw.

nächstes Mal

Nächstes Mal (lineares Regressionsmodell 2) "Sie können nur das Modell" annehmen ". 』
Ich werde das erklären. Vielen Dank.

[^ 1]: Ohne ein Modell anzunehmen, bei dem der Fehlerterm einer Normalverteilung folgt, folgt der geschätzte Koeffizient des kleinsten Quadrats nicht der Normalverteilung, und das Verhältnis der Summe der quadratischen Residuen zu $ \ sigma ^ 2 $ folgt nicht der Chi-Quadrat-Verteilung Ich kann den $ t $ -Test, den ich am Anfang gemacht habe, nicht machen ...

[^ 2]: Ich denke, Kubogawa Statistics (die Grundlagen der modernen mathematischen Statistik) ist ein leicht verständliches Lehrbuch. Ich sage Ihnen nicht, dass Sie die Messtheorie verstehen sollen. Ich verstehe die Messtheorie auch nicht. Ich möchte jedoch das Konzept der Wahrscheinlichkeitsverteilung verstehen.

[^ 3]: Früher war ich so.

Recommended Posts