[PYTHON] Grundlagen der Regressionsanalyse

Daten ohne Kontext sind nur eine Liste von Zahlen. Um die vorliegenden Daten gut nutzen zu können, ist es notwendig, eine breite Palette von Informationen zu sammeln, beispielsweise den Mechanismus des Phänomens hinter den Daten, den historischen Hintergrund und die Umgebung. Sammeln Sie dann basierend auf diesen Informationen mehr Daten mit kostenlosen Ideen.

Daten sind nicht nur durch Sammeln sinnvoll. Die Eigenschaften können durch Vergleichen gesehen werden. Die Berechnung des Mittelwerts oder der Varianz wird als Abrufen einer zusammenfassenden Statistik bezeichnet. Zusätzlich werden ein Frequenzdiagramm und ein Liniendiagramm gezeichnet, um die Daten zu visualisieren und die Eigenschaften der Daten zu erfassen.

Wenn mit einer solchen Analysemethode das Gesamtbild des Phänomens sichtbar wird, wird schließlich die statistische Methode angewendet. In diesem Fall muss der Zweck der Analyse klar sein. groß

Die Struktur des Phänomens verstehen
Sammlung von Informationen
Prognose Es kann in drei Kategorien eingeteilt werden. Es gibt einen universellen Grund für diese Klassifizierung. In der Statistik denken wir, dass es Daten gibt, die die Grundlage der erhaltenen Daten bilden, und wir nennen dies eine Population oder einfach ein Modell. Und ich denke, dass die vorliegenden Daten aus der Bevölkerung extrahiert wurden. Die extrahierten oder beobachteten Daten werden als Stichprobe bezeichnet, um sie von der Population zu unterscheiden. Das Erhalten einer Population entspricht dem Erhalten eines Modells. Es wird auch gesagt, dass ein echtes Modell erhalten wurde. In vielen Fällen bedeutet ein echtes Modell, die Struktur hinter dem Phänomen zu verstehen. Leider ist eine Bevölkerung selten verfügbar. Es bedeutet auch, dass Sie kein Modell bekommen können. Wenn eine Population nicht erhalten werden kann, besteht der Zweck darin, neue Informationen zu erhalten, beispielsweise die Tendenz der zu analysierenden Daten zu erfassen oder die Relevanz mit anderen Daten zu erfassen. Die Vorhersage kann auch dann erfolgreich sein, wenn kein echtes Modell erhalten werden kann. In solchen Fällen ist das Vorhersagen der Zweck der Analyse.

Um den Vergleich zu ergänzen, erfordert der Vergleich einige Kriterien. Es gibt zwei Möglichkeiten, dies zu tun. Eine besteht darin, diesen Standard von außen zu suchen. Dies ist ein Vergleich mit dem wahren Modell. Das ist aber fast unmöglich. Vergleichen Sie es daher mit den vorliegenden Daten. Dies entspricht der Verwendung einer t-Verteilungs- oder Dispersionsanalyse.

Der Begriff Modell ist bereits aufgetaucht, aber kurz gesagt handelt es sich um eine Wahrscheinlichkeitsverteilung. Dies ist eine der Methoden zum Ausdrücken eines stochastischen Phänomens und drückt aus, wie ein Phänomen mit einer bestimmten Wahrscheinlichkeit auftritt. Es ist jedoch selten, dass das tatsächliche Phänomen einer solchen Wahrscheinlichkeitsverteilung folgt. Dies liegt daran, dass die Phänomene, die Sie tatsächlich sehen, je nach Situation leicht unterschiedlich sind. Die Daten können auch beobachtetes Rauschen enthalten. Betrachten Sie daher ein bedingtes Verteilungsmodell. Und der Vertreter eines solchen Modells ist die Regressionsanalyse. Es gibt viele Bibliotheken in Statistikmodellen, die für eine solche Analyse geeignet sind.

Lineare Regressionsmodelle in Statistikmodellen $y=f(x_i)+e=\beta_0+\beta_1 x_1 +,\cdots,+ e $ Abschnitt ($ \ beta_0 ) und Regressionskoeffizient ( \ beta_i $)

japanisch	statsmodels
Minimum-Quadrat-Methode	OLS
Gewichtete Methode der kleinsten Quadrate	WLS
Verallgemeinerte Minimum-Square-Methode	GLS
Rekursive Methode der kleinsten Quadrate	Recursive LS

Es wird nach vier Methoden geschätzt. $ x $ ist die erklärende Variable und $ e $ ist der Fehler. $ y $ ist die abhängige Variable und wird als lineare Kombination von $ x $ modelliert. Damit das nach der Methode der kleinsten Quadrate erhaltene Modell plausibel ist, ist der Fehler

Es gibt keine Voreingenommenheit. --Dispersion ist bekannt und konstant.
Die Kovarianz ist 0.
Befolgen Sie die Normalverteilung.

Wird auferlegt. GLS ist ein Modell, das sich mit Dispersionsinhomogenität befassen kann, bei der die Streuung von Fehlern nicht konstant ist, und Fehler mit Autokorrelation, bei denen Fehler korreliert sind. WLS befasst sich mit Dispersionsinhomogenität, und rekursives LS ist ein Fehler mit Autokorrelation. Beschäftigt sich mit. Diese Modelle nehmen verschiedene Anpassungen am Problem von Fehlern vor, die die Bedingungen nicht erfüllen, und schätzen den Regressionskoeffizienten, indem sie diese Bedingungen erfüllen.

Wenn wir lineare Regression sagen

Linear in Bezug auf Parameter Die Bedingung wird auferlegt. Auch für x (unabhängige Variable, erklärende Variable) a) Ein fester Wert, keine stochastische Variable b) Probabilistische Variable Bei einer stochastischen Variablen muss x unabhängig vom Fehlerterm sein.

Darüber hinaus gibt es ein verallgemeinertes lineares Modell, in dem die Verteilung von $ y $ als Exponentialverteilungsfamilie angegeben ist und der Rest eine beliebige Verteilung ist. Als Weiterentwicklung davon

und so weiter. OLS wird für die lineare Regression verwendet, aber der Regressionskoeffizient wird unter Verwendung der wahrscheinlichsten Methode oder einer Methode geschätzt, die dem verallgemeinerten linearen Modell und seiner Entwicklung ähnlich ist.