Einführung

Angenommen, die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells. Schätzen Sie den Koeffizienten des linearen Regressionsmodells mit der Methode der kleinsten Quadrate und den folgenden Schätzergebnissen Und das Testergebnis wird erhalten.

(Dies ist ein Auftakt zur Erklärung. Als Beispiel verwende ich die Python-Bibliothek und die abgelegten Daten.)

import pandas as pd import statsmodels.api as sm #Änderungen im monatlichen Durchschnitt der Kohlendioxidkonzentration in der Welt # (https://www.data.go.jp/data/dataset/mlit_20180523_0032)Als df_co2 = pd.read_csv('co2.csv') #Steigt die weltweite Kohlendioxidkonzentration nicht von Jahr zu Jahr?# #Alle 384 Punkte als erklärende Variablen(0～383)verwenden. df_co2['x'] = df_co2.index X = df_co2.loc[:, ['x']] #Monatliche Kohlendioxidkonzentration als Zielvariable(ppm)Verwenden Sie den Durchschnitt. Y = df_co2.loc[:, ['ave_ppm']] #Schätzen Sie die Koeffizienten des linearen Regressionsmodells mit der Methode der kleinsten Quadrate.(Was machen Sie mit Zeitreihendaten ...) model = sm.OLS(Y,sm.add_constant(X)) results = model.fit() print(results.summary())

OLS Regression Results ============================================================================== Dep. Variable: ave_ppm R-squared: 0.983 Model: OLS Adj. R-squared: 0.983 Method: Least Squares F-statistic: 2.195e+04 Date: Tue, 24 Dec 2019 Prob (F-statistic): 0.00 Time: 00:01:54 Log-Likelihood: -840.53 No. Observations: 384 AIC: 1685. Df Residuals: 382 BIC: 1693. Df Model: 1 Covariance Type: nonrobust ============================================================================== coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 341.6819 0.221 1549.122 0.000 341.248 342.116 x 0.1477 0.001 148.154 0.000 0.146 0.150 ============================================================================== Omnibus: 17.898 Durbin-Watson: 0.198 Prob(Omnibus): 0.000 Jarque-Bera (JB): 10.180 Skew: -0.229 Prob(JB): 0.00616 Kurtosis: 2.347 Cond. No. 442. ==============================================================================

In den letzten Jahren hat die Anzahl der Personen, die es tatsächlich versuchen, indem sie es Analyse nennen, zugenommen. Ich denke jedoch, dass einige Leute die Bedeutung dieses Schätzergebnisses verstehen. (Vorurteil)

Ich denke, es gibt viele Leute, die vage sagen: "Es ist eine aussagekräftige erklärende Variable, weil der p-Wert kleiner als 5% ist! Wie vermutet!" Und tatsächlich nicht verstehen, was sie tun. Viele Leute denken, dass die statistische Signifikanz automatisch berechnet werden kann, solange es auf jeden Fall Daten gibt. Möglicherweise verstehen Sie die Bedeutung der statistischen Signifikanz nicht, obwohl Sie signifikante Ergebnisse erzielen. etc

Das lineare Regressionsmodell ist ein esoterisches statistisches Modell, für dessen Verständnis erhebliche Grundkenntnisse erforderlich sind. Mit Daten und Analysewerkzeugen können die Analyseergebnisse jedoch problemlos ausgegeben werden. Ich denke, diese Lücke verursacht diese Situation. Hier,

"Unter der Annahme, dass die erhaltenen Daten der Realisierungswert des linearen Regressionsmodells sind, schätzen den Koeffizienten des linearen Regressionsmodells nach der Minimum-Square-Methode und den folgenden Sie erhalten die Schätz- und Testergebnisse. " ―― "Obwohl das lineare Regressionsmodell ein esoterisches statistisches Modell ist, dessen Verständnis beträchtliche Grundkenntnisse erfordert."

Auf der anderen Seite kann es einige Leute geben, die denken: "Nun, ist das so?" Oder "Was meinst du?" Dieser Artikel ist für solche Leute. (Oder für diejenigen, die sich fragen, wie sie die Ausgabe mit einem Analysetool interpretieren sollen.)

Das erste Mal (lineares Regressionsmodell 1) ist "Die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells." Ich werde die Bedeutung von erklären.

Was ist "die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells"?

Erstens verstehen viele Menschen möglicherweise nicht, dass das lineare Regressionsmodell ein stochastisches Modell ist. Das lineare Regressionsmodell hat eine erklärende Variable

y_j = {\beta}_0 + {\beta}_{1}{x_{1j}} + {u_j} \\ u_j \sim N(0, \sigma^{2}), \quad i.i.d.\\ (j = 1, \cdots , n)\\

Kann ausgedrückt werden als. [^ 1] $ y $ ist die Zielvariable und $ x_ {1} $ ist das lineare Regressionsmodell der erklärenden Variablen. Dieses lineare Regressionsmodell ist eines der Modelle , die angewendet werden können, wenn $ n $ Daten für ein Paar von $ y $ und $ x_ {1} $ erhalten werden. Bitte beachten Sie, dass die tatsächlich erhaltenen Daten von diesem Modell nicht immer erklärt werden können.

"$ U_j \ sim N (0, \ sigma ^ {2}), \ quad iid " bedeutet " u_j $ mittelt $ 0 $ unabhängig voneinander zwischen jedem $ j $ und verteilt $ \ sigma ^ {2} $ , Ist eine stochastische Variable, die der Normalverteilung von folgt. " ($ X_ {1} $ ist keine stochastische Variable im linearen Regressionsmodell.) Was ist eine stochastische Variable, wenn man sich die bisherige Erklärung des linearen Regressionsmodells anhört? Was ist Unabhängigkeit? Wenn Sie Fragen haben, verfügen Sie immer noch nicht über die Grundkenntnisse, die Sie zum Verständnis des linearen Regressionsmodells benötigen. Lassen Sie uns zunächst die Bedeutung der Begriffe verstehen. ~~ Es ist nervig ~~ Ich werde es hier nicht erklären, weil es vom Hauptthema abweicht. Bitte lesen und verstehen Sie andere Websites und Lehrbücher. [^ 2]

Übrigens ist, wie Sie aus dem obigen linearen Regressionsmodell sehen können, das lineare Regressionsmodell ein stochastisches Modell, in dem die stochastische Variable "$ u_j \ sim N (0, \ sigma ^ {2}), \ quad iid $" enthalten ist. Deswegen. Es ist ein Modell, das stochastische Variablen enthält. Dieser Begriff $ u_j $ wird als Fehlerbegriff bezeichnet.

Leute, die nicht oft verstehen, sehen diesen Fehlerbegriff nicht und denken fälschlicherweise, dass $ y $ nur durch die lineare Summe von $ \ beta_i $ und $ x $ dargestellt wird. [^ 3] Es ist ein Muster, das Sie denken lässt, dass es nur hier ein einfaches Modell ist. Ich halte dies für ein Missverständnis, dass die nach dem linearen Regressionsmodell erhaltenen Datenwerte als realisierte Werte der stochastischen Variablen nicht gut verstanden werden.

Nehmen wir als konkretes Beispiel an, dass das lineare Regressionsmodell, dem $ y_j $ folgt, $ y_j = 1 + 2 {x_ {1j}} + {u_j} $ ist. Wenn zu diesem Zeitpunkt $ {x_ {1j}} = 3 $ ist, was ist $ y_j $? Diejenigen, die nicht hier gut verstehen, werden sagen, dass $ y_j = 7 $. Das ist natürlich falsch. Diejenigen, die darauf antworten, verstehen nicht, dass $ y_j $ eine stochastische Variable ist. Richtig, $ y_j = 7 + {u_j} $, also wird der Wert von $ y_j $ durch den Wert von $ {u_j} $ bestimmt. Mit anderen Worten, der Wert von $ y_j $ ändert sich von Zeit zu Zeit wie der Wert der Würfel. Dieser Ausdruck wird verwendet, z. B. "Der Wert des Würfelwurfs ist der tatsächliche Wert des Würfels." Der tatsächlich als Datenwert erhaltene Wert von $ y_j $ ist der Wert, der gemäß der angenommenen Wahrscheinlichkeitsverteilung erhalten wird. (Wenn $ y_j = 7 + {u_j} $, ist die Wahrscheinlichkeitsverteilung, der $ y_j $ folgt, $ N (7, \ sigma ^ {2}) $.)

Das Obige ist die Erklärung der Bedeutung, dass "die erhaltenen Daten der realisierte Wert des linearen Regressionsmodells sind". Wir würden uns freuen, wenn Sie uns Ihre Fragen stellen, auf Fehler hinweisen usw.

nächstes Mal

Nächstes Mal (lineares Regressionsmodell 2) "Sie können nur das Modell" annehmen ". 』
Ich werde das erklären. Vielen Dank.

[^ 1]: Ohne ein Modell anzunehmen, bei dem der Fehlerterm einer Normalverteilung folgt, folgt der geschätzte Koeffizient des kleinsten Quadrats nicht der Normalverteilung, und das Verhältnis der Summe der quadratischen Residuen zu $ \ sigma ^ 2 $ folgt nicht der Chi-Quadrat-Verteilung Ich kann den $ t $ -Test, den ich am Anfang gemacht habe, nicht machen ...

[^ 2]: Ich denke, Kubogawa Statistics (die Grundlagen der modernen mathematischen Statistik) ist ein leicht verständliches Lehrbuch. Ich sage Ihnen nicht, dass Sie die Messtheorie verstehen sollen. Ich verstehe die Messtheorie auch nicht. Ich möchte jedoch das Konzept der Wahrscheinlichkeitsverteilung verstehen.

[^ 3]: Früher war ich so.

Recommended Posts
Für diejenigen, die in der Atmosphäre analysieren (lineares Regressionsmodell 1)

Für diejenigen, die Probleme beim Zeichnen von Diagrammen mit Python haben

[Für Anfänger] Für diejenigen, die durch ihre eigenen Daten des Regressionsmodells gestoppt werden (Statistikmodelle (2. Mal))

[Für Anfänger] Für diejenigen, die durch ihre eigenen Daten des Regressionsmodells gestoppt werden (Statistikmodelle (1. Mal))

Tipps für diejenigen, die verwirrt sind, wie man is und == in Python verwendet

Regression mit einem linearen Modell

Für diejenigen, die Probleme mit einem Fehler haben, wenn pip xg boost installiert

Für diejenigen, die in Schwierigkeiten sind, weil NFC beim Lesen von NFC mit Python endlos gelesen wird

Referenz Referenz für diejenigen, die mit Rhinoceros / Grasshopper codieren möchten

Online lineare Regression in Python

Erklärung für diejenigen, die Probleme mit "Befehl nicht gefunden" in rbenv oder pyenv haben

NumPy-Beispielsammlung für diejenigen, die nicht gut in Mathe sind

Ein Hinweis für diejenigen, die Python in Visual Studio verwenden (ich)

Lineare Regression (für Anfänger) -Code Edition-

Java SE8 Gold misst (für diejenigen, die nicht gut darin sind)

Ich habe Airbnb-Daten für diejenigen analysiert, die in Amsterdam bleiben möchten

Ich habe versucht, NVDashboard zu verwenden (für diejenigen, die GPU in einer Jupyter-Umgebung verwenden)

[YOLO v5] Objekterkennung für maskierte und nicht maskierte Personen

Lineare Regression in Python (Statmodelle, Scikit-Learn, PyMC3)

Online lineare Regression in Python (Robuste Schätzung)

AWS ~ Für diejenigen, die es verwenden werden ~

<Kurs> Maschinelles Lernen Kapitel 1: Lineares Regressionsmodell

[Mit japanischem Modell] Satzvektormodell empfohlen für Personen, die 2020 natürliche Sprache verarbeiten

[Gelöst] Ich habe eine Frage an diejenigen, die mit Python-Mechanisierung vertraut sind.

Dinge, die Sie bei der Verwendung von Python beachten sollten, wenn Sie MATLAB verwenden

Der erste Schritt für diejenigen, die Amateure der Statistik sind, aber Modelle für maschinelles Lernen in Python implementieren möchten

[PYTHON] Für diejenigen, die in der Atmosphäre analysieren (lineares Regressionsmodell 1)

Einführung

Was ist "die erhaltenen Daten sind der realisierte Wert des linearen Regressionsmodells"?

nächstes Mal