Angenommen, die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells. </ Strong> Schätzen Sie den Koeffizienten des linearen Regressionsmodells mit der Methode der kleinsten Quadrate </ strong> und den folgenden Schätzergebnissen Und das Testergebnis wird erhalten.
(Dies ist ein Auftakt zur Erklärung. Als Beispiel verwende ich die Python-Bibliothek und die abgelegten Daten.)
import pandas as pd
import statsmodels.api as sm
#Änderungen im monatlichen Durchschnitt der Kohlendioxidkonzentration in der Welt
# (https://www.data.go.jp/data/dataset/mlit_20180523_0032)Als
df_co2 = pd.read_csv('co2.csv')
#Steigt die weltweite Kohlendioxidkonzentration nicht von Jahr zu Jahr?#
#Alle 384 Punkte als erklärende Variablen(0~383)verwenden.
df_co2['x'] = df_co2.index
X = df_co2.loc[:, ['x']]
#Monatliche Kohlendioxidkonzentration als Zielvariable(ppm)Verwenden Sie den Durchschnitt.
Y = df_co2.loc[:, ['ave_ppm']]
#Schätzen Sie die Koeffizienten des linearen Regressionsmodells mit der Methode der kleinsten Quadrate.(Was machen Sie mit Zeitreihendaten ...)
model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()
print(results.summary())
OLS Regression Results
==============================================================================
Dep. Variable: ave_ppm R-squared: 0.983
Model: OLS Adj. R-squared: 0.983
Method: Least Squares F-statistic: 2.195e+04
Date: Tue, 24 Dec 2019 Prob (F-statistic): 0.00
Time: 00:01:54 Log-Likelihood: -840.53
No. Observations: 384 AIC: 1685.
Df Residuals: 382 BIC: 1693.
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 341.6819 0.221 1549.122 0.000 341.248 342.116
x 0.1477 0.001 148.154 0.000 0.146 0.150
==============================================================================
Omnibus: 17.898 Durbin-Watson: 0.198
Prob(Omnibus): 0.000 Jarque-Bera (JB): 10.180
Skew: -0.229 Prob(JB): 0.00616
Kurtosis: 2.347 Cond. No. 442.
==============================================================================
In den letzten Jahren hat die Anzahl der Personen, die es tatsächlich versuchen, indem sie es Analyse nennen, zugenommen. Ich denke jedoch, dass einige Leute die Bedeutung dieses Schätzergebnisses verstehen. (Vorurteil)
Ich denke, es gibt viele Leute, die vage sagen: "Es ist eine aussagekräftige erklärende Variable, weil der p-Wert kleiner als 5% ist! Wie vermutet!" Und tatsächlich nicht verstehen, was sie tun. Viele Leute denken, dass die statistische Signifikanz automatisch berechnet werden kann, solange es auf jeden Fall Daten gibt. Möglicherweise verstehen Sie die Bedeutung der statistischen Signifikanz nicht, obwohl Sie signifikante Ergebnisse erzielen. etc
Das lineare Regressionsmodell ist ein esoterisches </ strong> statistisches Modell, für dessen Verständnis erhebliche Grundkenntnisse erforderlich sind. Mit Daten und Analysewerkzeugen können die Analyseergebnisse jedoch problemlos ausgegeben werden. Ich denke, diese Lücke verursacht diese Situation. Hier,
Auf der anderen Seite kann es einige Leute geben, die denken: "Nun, ist das so?" Oder "Was meinst du?" Dieser Artikel ist für solche Leute. (Oder für diejenigen, die sich fragen, wie sie die Ausgabe mit einem Analysetool interpretieren sollen.)
Das erste Mal (lineares Regressionsmodell 1) ist "Die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells." Ich werde die Bedeutung von erklären.
Erstens verstehen viele Menschen möglicherweise nicht, dass das lineare Regressionsmodell ein stochastisches Modell ist. Das lineare Regressionsmodell hat eine erklärende Variable
y_j = {\beta}_0 + {\beta}_{1}{x_{1j}} + {u_j} \\
u_j \sim N(0, \sigma^{2}), \quad i.i.d.\\
(j = 1, \cdots , n)\\
Kann ausgedrückt werden als. [^ 1] $ y $ ist die Zielvariable und $ x_ {1} $ ist das lineare Regressionsmodell der erklärenden Variablen. Dieses lineare Regressionsmodell ist eines der Modelle </ strong>, die angewendet werden können, wenn $ n $ Daten für ein Paar von $ y $ und $ x_ {1} $ erhalten werden. Bitte beachten Sie, dass die tatsächlich erhaltenen Daten von diesem Modell nicht immer erklärt werden können.
"$ U_j \ sim N (0, \ sigma ^ {2}), \ quad iid
Übrigens ist, wie Sie aus dem obigen linearen Regressionsmodell sehen können, das lineare Regressionsmodell ein stochastisches Modell, in dem die stochastische Variable "$ u_j \ sim N (0, \ sigma ^ {2}), \ quad iid $" enthalten ist. Deswegen. Es ist ein Modell, das stochastische Variablen enthält. Dieser Begriff $ u_j $ wird als Fehlerbegriff bezeichnet.
Leute, die nicht oft verstehen, sehen diesen Fehlerbegriff nicht und denken fälschlicherweise, dass $ y $ nur durch die lineare Summe von $ \ beta_i $ und $ x $ dargestellt wird. [^ 3] Es ist ein Muster, das Sie denken lässt, dass es nur hier ein einfaches Modell ist. Ich halte dies für ein Missverständnis, dass die nach dem linearen Regressionsmodell erhaltenen Datenwerte als realisierte Werte der stochastischen Variablen nicht gut verstanden werden.
Nehmen wir als konkretes Beispiel an, dass das lineare Regressionsmodell, dem $ y_j $ folgt, $ y_j = 1 + 2 {x_ {1j}} + {u_j} $ ist. Wenn zu diesem Zeitpunkt $ {x_ {1j}} = 3 $ ist, was ist $ y_j $? Diejenigen, die nicht </ strong> hier gut verstehen, werden sagen, dass $ y_j = 7 $. Das ist natürlich falsch. Diejenigen, die darauf antworten, verstehen nicht, dass $ y_j $ eine stochastische Variable ist. Richtig, $ y_j = 7 + {u_j} $, also wird der Wert von $ y_j $ durch den Wert von $ {u_j} $ bestimmt. Mit anderen Worten, der Wert von $ y_j $ ändert sich von Zeit zu Zeit wie der Wert der Würfel. Dieser Ausdruck wird verwendet, z. B. "Der Wert des Würfelwurfs ist der tatsächliche Wert des Würfels." Der tatsächlich als Datenwert erhaltene Wert von $ y_j $ ist der Wert, der gemäß der angenommenen Wahrscheinlichkeitsverteilung erhalten wird. (Wenn $ y_j = 7 + {u_j} $, ist die Wahrscheinlichkeitsverteilung, der $ y_j $ folgt, $ N (7, \ sigma ^ {2}) $.)
Das Obige ist die Erklärung der Bedeutung, dass "die erhaltenen Daten der realisierte Wert des linearen Regressionsmodells sind". Wir würden uns freuen, wenn Sie uns Ihre Fragen stellen, auf Fehler hinweisen usw.
Nächstes Mal (lineares Regressionsmodell 2)
"Sie können nur das Modell" annehmen ". 』
Ich werde das erklären.
Vielen Dank.
[^ 1]: Ohne ein Modell anzunehmen, bei dem der Fehlerterm einer Normalverteilung folgt, folgt der geschätzte Koeffizient des kleinsten Quadrats nicht der Normalverteilung, und das Verhältnis der Summe der quadratischen Residuen zu $ \ sigma ^ 2 $ folgt nicht der Chi-Quadrat-Verteilung Ich kann den $ t $ -Test, den ich am Anfang gemacht habe, nicht machen ...
[^ 2]: Ich denke, Kubogawa Statistics (die Grundlagen der modernen mathematischen Statistik) ist ein leicht verständliches Lehrbuch. Ich sage Ihnen nicht, dass Sie die Messtheorie verstehen sollen. Ich verstehe die Messtheorie auch nicht. Ich möchte jedoch das Konzept der Wahrscheinlichkeitsverteilung verstehen.
[^ 3]: Früher war ich so.
Recommended Posts