Einführung in das Generalized Linear Model (GLM) von Python

Was ist ein verallgemeinertes lineares Modell?

Ein verallgemeinertes lineares Modell ist ein allgemeiner Begriff für statistische Modelle wie lineare Regression, Poisson-Regression und logistische Regression, die die Antwortvariable (y) durch die erklärende Variable (x) erklären. Insbesondere handelt es sich um ein statistisches Modell, das durch Wahrscheinlichkeitsverteilung, lineare Prädiktoren und Verknüpfungsfunktionen bestimmt wird.

Wahrscheinlichkeitsverteilung

Die Wahrscheinlichkeitsverteilung, der die Antwortvariable folgt. Die "binäre Verteilung" und die "Poisson-Verteilung" werden häufig verwendet, um diskrete Daten wie Zähldaten zu verarbeiten. "Normalverteilung" und "Gammaverteilung" werden häufig verwendet, um kontinuierliche Daten zu verarbeiten, die kontinuierliche Mengen wie Aktienkurse darstellen.

Linearer Prädiktor

Eine Modellformel, die durch eine lineare Kombination erklärender Variablen dargestellt wird. Sie können angeben, welche erklärenden Variablen verwendet werden sollen und welche Interaktionsterme (Begriffe, die durch das Produkt der erklärenden Variablen dargestellt werden) verwendet werden sollen.

z = β_0 + β_{1}x_{1} + β_{2}x_{2}

Link-Funktion

Eine Funktion, die einen Ausdruck so transformiert, dass er einem linearen Prädiktor entspricht. Dank der Verknüpfungsfunktion kann die Wahrscheinlichkeit, dass der Wert nur 0 bis 1 annehmen kann, auch dem linearen Prädiktor entsprechen. Die zu verwendende Verknüpfungsfunktion hängt in gewissem Maße von der Verteilung ab. Wenn Sie also mehr wissen möchten, lesen Sie bitte das verknüpfte Buch in der Referenz unter dem Artikel.

log(y) = β_0 + β_{1}x_{1} + β_{2}x_{2}

Implementierung in Python

Das verallgemeinerte lineare Modell kann leicht mit der glm-Funktion von R ausgeführt werden. Jedoch,

R Ich möchte nicht verwenden
Ich möchte es mit Python machen

Ich denke, es gibt viele Leute, die das sagen, also werde ich es mit Python versuchen. Als ich danach suchte, fand ich ein Modul namens "statsmodels" wie Rs "glm function".

Modulinstallation

$ pip install statsmodels
$ pip install patsy #Nachdem ich Statistikmodelle importiert hatte, wurde mir gesagt, dass dies notwendig ist. Installieren Sie es also
$ pip install pandas #Zur Datenverarbeitung installiert

Datenerfassung und Modellierung

import statsmodels.api as sm
import pandas as pd

#Lesen Sie die Daten in der unten stehenden Referenz-URL
data3a = pd.read_csv("http://hosho.ees.hokudai.ac.jp/~kubo/stat/iwanamibook/fig/poisson/data3a.csv")
#Erstellen Sie einen linearen Prädiktor mit der Variablen x und dem konstanten Term
data3a.x_c = sm.add_constant(data3a.x)

#Erstellen Sie ein verallgemeinertes lineares Modell der Poisson-Verteilung für die Verteilung und der logarithmischen Verknüpfungsfunktion für die Verknüpfungsfunktion
#Für die Poisson-Verteilung ist standardmäßig die logarithmische Verknüpfungsfunktion angegeben
model = sm.GLM(data3a.y, data3a.x_c, family=sm.families.Poisson())
result = model.fit()

#Ergebnis
result.summary()

statsmodels Benri!

abschließend

Es war ein verallgemeinertes lineares Modell, das ein statistisches Modell wie ein lineares Modell erweiterte, aber es ist immer noch schwierig, reale Ereignisse in ein so einfaches Modell einzubeziehen. Das folgende Buch erklärt auch Techniken wie das verallgemeinerte lineare gemischte Modell, das eine Weiterentwicklung des verallgemeinerten linearen Modells darstellt. Bitte beziehen Sie sich darauf.

Referenz

http://hosho.ees.hokudai.ac.jp/~kubo/ce/IwanamiBook.html

http://statsmodels.sourceforge.net/devel/glm.html