[PYTHON] Grundlagen der Regressionsanalyse

Daten ohne Kontext sind nur eine Liste von Zahlen. Um die vorliegenden Daten gut nutzen zu können, ist es notwendig, eine breite Palette von Informationen zu sammeln, beispielsweise den Mechanismus des Phänomens hinter den Daten, den historischen Hintergrund und die Umgebung. Sammeln Sie dann basierend auf diesen Informationen mehr Daten mit kostenlosen Ideen.

Daten sind nicht nur durch Sammeln sinnvoll. Die Eigenschaften können durch Vergleichen gesehen werden. Die Berechnung des Mittelwerts oder der Varianz wird als Abrufen einer zusammenfassenden Statistik bezeichnet. Zusätzlich werden ein Frequenzdiagramm und ein Liniendiagramm gezeichnet, um die Daten zu visualisieren und die Eigenschaften der Daten zu erfassen.

Wenn mit einer solchen Analysemethode das Gesamtbild des Phänomens sichtbar wird, wird schließlich die statistische Methode angewendet. In diesem Fall muss der Zweck der Analyse klar sein. groß

  1. Die Struktur des Phänomens verstehen
  2. Sammlung von Informationen
  3. Prognose Es kann in drei Kategorien eingeteilt werden. Es gibt einen universellen Grund für diese Klassifizierung. In der Statistik denken wir, dass es Daten gibt, die die Grundlage der erhaltenen Daten bilden, und wir nennen dies eine Population oder einfach ein Modell. Und ich denke, dass die vorliegenden Daten aus der Bevölkerung extrahiert wurden. Die extrahierten oder beobachteten Daten werden als Stichprobe bezeichnet, um sie von der Population zu unterscheiden. Das Erhalten einer Population entspricht dem Erhalten eines Modells. Es wird auch gesagt, dass ein echtes Modell erhalten wurde. In vielen Fällen bedeutet ein echtes Modell, die Struktur hinter dem Phänomen zu verstehen. Leider ist eine Bevölkerung selten verfügbar. Es bedeutet auch, dass Sie kein Modell bekommen können. Wenn eine Population nicht erhalten werden kann, besteht der Zweck darin, neue Informationen zu erhalten, beispielsweise die Tendenz der zu analysierenden Daten zu erfassen oder die Relevanz mit anderen Daten zu erfassen. Die Vorhersage kann auch dann erfolgreich sein, wenn kein echtes Modell erhalten werden kann. In solchen Fällen ist das Vorhersagen der Zweck der Analyse.

Um den Vergleich zu ergänzen, erfordert der Vergleich einige Kriterien. Es gibt zwei Möglichkeiten, dies zu tun. Eine besteht darin, diesen Standard von außen zu suchen. Dies ist ein Vergleich mit dem wahren Modell. Das ist aber fast unmöglich. Vergleichen Sie es daher mit den vorliegenden Daten. Dies entspricht der Verwendung einer t-Verteilungs- oder Dispersionsanalyse.

Der Begriff Modell ist bereits aufgetaucht, aber kurz gesagt handelt es sich um eine Wahrscheinlichkeitsverteilung. Dies ist eine der Methoden zum Ausdrücken eines stochastischen Phänomens und drückt aus, wie ein Phänomen mit einer bestimmten Wahrscheinlichkeit auftritt. Es ist jedoch selten, dass das tatsächliche Phänomen einer solchen Wahrscheinlichkeitsverteilung folgt. Dies liegt daran, dass die Phänomene, die Sie tatsächlich sehen, je nach Situation leicht unterschiedlich sind. Die Daten können auch beobachtetes Rauschen enthalten. Betrachten Sie daher ein bedingtes Verteilungsmodell. Und der Vertreter eines solchen Modells ist die Regressionsanalyse. Es gibt viele Bibliotheken in Statistikmodellen, die für eine solche Analyse geeignet sind.

Lineare Regressionsmodelle in Statistikmodellen $y=f(x_i)+e=\beta_0+\beta_1 x_1 +,\cdots,+ e $ Abschnitt ($ \ beta_0 ) und Regressionskoeffizient ( \ beta_i $)

japanisch statsmodels
Minimum-Quadrat-Methode OLS
Gewichtete Methode der kleinsten Quadrate WLS
Verallgemeinerte Minimum-Square-Methode GLS
Rekursive Methode der kleinsten Quadrate Recursive LS

Es wird nach vier Methoden geschätzt. $ x $ ist die erklärende Variable und $ e $ ist der Fehler. $ y $ ist die abhängige Variable und wird als lineare Kombination von $ x $ modelliert. Damit das nach der Methode der kleinsten Quadrate erhaltene Modell plausibel ist, ist der Fehler

Wird auferlegt. GLS ist ein Modell, das sich mit Dispersionsinhomogenität befassen kann, bei der die Streuung von Fehlern nicht konstant ist, und Fehler mit Autokorrelation, bei denen Fehler korreliert sind. WLS befasst sich mit Dispersionsinhomogenität, und rekursives LS ist ein Fehler mit Autokorrelation. Beschäftigt sich mit. Diese Modelle nehmen verschiedene Anpassungen am Problem von Fehlern vor, die die Bedingungen nicht erfüllen, und schätzen den Regressionskoeffizienten, indem sie diese Bedingungen erfüllen.

Wenn wir lineare Regression sagen

  1. Linear in Bezug auf Parameter Die Bedingung wird auferlegt. Auch für x (unabhängige Variable, erklärende Variable) a) Ein fester Wert, keine stochastische Variable b) Probabilistische Variable Bei einer stochastischen Variablen muss x unabhängig vom Fehlerterm sein.

Darüber hinaus gibt es ein verallgemeinertes lineares Modell, in dem die Verteilung von $ y $ als Exponentialverteilungsfamilie angegeben ist und der Rest eine beliebige Verteilung ist. Als Weiterentwicklung davon

und so weiter. OLS wird für die lineare Regression verwendet, aber der Regressionskoeffizient wird unter Verwendung der wahrscheinlichsten Methode oder einer Methode geschätzt, die dem verallgemeinerten linearen Modell und seiner Entwicklung ähnlich ist.

Recommended Posts

Grundlagen der Regressionsanalyse
Poisson-Regressionsanalyse
Python-Grundlagen ①
Grundlagen von Python ①
Grundlagen des Lernens mit einem Lehrer Teil 1 - Einfache Regression - (Hinweis)
Grundlagen der Python-Scraping-Grundlagen
Zeitreihenanalyse 1 Grundlagen
# 4 [Python] Grundlagen der Funktionen
Die Gründung der Perceptron-Stiftung
Lernen mit einem Lehrer (Rückkehr) 1 Grundlagen
Führen Sie eine Regressionsanalyse mit NumPy durch
Grundlagen von Python: Ausgabe
Grundlagen des Lernens mit einem Lehrer Teil 3 - Multiple Regression (Implementierung) - (Anmerkungen) -
Regressionsanalyse mit Python
Erläuterung des Konzepts der Regressionsanalyse mit Python Teil 2
Berechnen Sie den Regressionskoeffizienten der einfachen Regressionsanalyse mit Python
Erläuterung des Konzepts der Regressionsanalyse mit Python Teil 1
Was ist eine logistische Regressionsanalyse?
Multiple Regressionsanalyse mit Keras
Grundlagen des maschinellen Lernens (Denkmal)
Statische Analyse von Python-Programmen
Python: Grundlagen der Verwendung von Scikit-Learn ①
Implementierung einer unabhängigen Komponentenanalyse
Lernen mit dem Lehrer 1 Grundlagen des Lernens mit dem Lehrer (Klassifizierung)
XPath-Grundlagen (1) - Grundkonzept von XPath
Einfache Regressionsanalyse mit Python
Python x GIS-Grundlagen (1)
Einfache Regressionsanalyse, verstanden durch mathematische Überprüfung des Moore'schen Gesetzes an der High School
Python x GIS-Grundlagen (3)
Paiza Python Primer 5: Grundlagen von Wörterbüchern
Lesen Sie "Grundlagen des Quantenglühens", Tag 5
Erste einfache Regressionsanalyse in Python
Python: Anwendung des überwachten Lernens (Rückkehr)
Einführung in die Python-Grundlagen des maschinellen Lernens (unbeaufsichtigtes Lernen / Hauptanalyse)
Algorithmus für maschinelles Lernen (multiple Regressionsanalyse)
Negative / Positive Analyse 1 Anwendung der Textanalyse
Algorithmus für maschinelles Lernen (Einzelregressionsanalyse)
[Muss für Anfänger] Grundlagen von Linux
Themenextraktion von japanischem Text 1 Grundlagen
Überprüfung der Grundlagen von Python (FizzBuzz)
Grundlagen der Quanteninformationstheorie: Entropie (2)
100 Sprachverarbeitung Knock-59: Analyse der S-Formel
Grundlagen von Python x GIS (Teil 2)
Darstellung der Regressionslinie durch Restdarstellung
Datenanalyse zur Verbesserung von POG 3 ~ Regressionsanalyse ~
Grundlagen zum Berühren von MongoDB mit MongoEngine
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Einfache Implementierung einer Regressionsanalyse mit Keras
Lesen Sie "Grundlagen des Quantenglühens", Tag 6
Was ist eine mehrjährige logistische Regressionsanalyse?
Logistische Regressionsanalyse Selbst erstellt mit Python
Informationen zur Grundlagenliste der Python-Grundlagen
Datenverarbeitung 2 Analyse verschiedener Datenformate
Lernen Sie die Grundlagen von Python ① Grundlegende Anfänger
Grundlagen der binärisierten Bildverarbeitung durch Python
Python: Grundlagen der Bilderkennung mit CNN
Ich habe eine multiple Regressionsanalyse mit Polypoly-Regression versucht
Algorithmus für maschinelles Lernen (Verallgemeinerung der linearen Regression)
Grundlagen der Quanteninformationstheorie: Datenkomprimierung (1)
Lernen Sie noch einmal die Grundlagen von Theano