Predictive Statistics (Practice Edition Multiple Regression) Python

Bitte zögern Sie nicht zu kommentieren, da es einige Fehler beim Schreiben als Ergebnis der Studie geben kann. Dieses Mal werden wir die Vorhersagegenauigkeit weiter verbessern, indem wir mit Vorhersagestatistik (Practice Edition Simple Regression) Python fortfahren.

Inhalt

・ Was ist eine multiple Regressionsanalyse? ・ Was ist eine Dummy-Variable? ・ Modellierungsmethode für mehrere Regressionen

Was ist eine multiple Regressionsanalyse?

Der einzige Unterschied zwischen der multiplen Regressionsanalyse und der einfachen Regressionsanalyse besteht darin, ob es mehrere oder eine erklärende Variable gibt. Die multiple Regressionsanalyse verbessert die Vorhersagegenauigkeit, da mehr Ereignisse (erklärende Variablen) die objektive Variable erklären. Wenn jedoch zu viele erklärende Variablen vorhanden sind, kann es zu Überlernen kommen und die Vorhersagegenauigkeit kann abnehmen. Daher ist die Auswahl erklärender Variablen bei der multiplen Regression sehr wichtig.

Was ist eine Dummy-Variable?

Eine Dummy-Variable soll etwas darstellen, das nicht durch einen numerischen Wert wie das Wetter dargestellt werden kann. Dies ist ein sehr wichtiger Faktor bei der multiplen Regression. Python bietet eine Funktion, die in eine Dummy-Variable umgewandelt werden kann. Sie können es wie folgt in einen numerischen Wert konvertieren.

pd.get_dummies("Variablen, die Sie zu Dummy-Variablen machen möchten")

So modellieren Sie multiple Regression

Die Modellierung in multipler Regression entspricht fast der einfachen Regression. Es werden nur die zuweisenden erklärenden Variablen erhöht. Die Menge an Code, die Sie schreiben, kann auch geringer sein als die einfache Regression. Schauen wir uns den Code an. (Fehlende Werte wurden korrigiert)

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
#Anzeige im aktuellen Browser
%matplotlib inline 
from sklearn.linear_model import LinearRegression as LR

#vorherige Daten
train = pd.read_csv("train.csv")
#Prognosedaten
test = pd.read_csv("test.csv") 
#Daten zur Eingabe vorhergesagter Werte
sample = pd.read_csv("sample.csv")

#Ersetzen Sie erklärende Variablen
#Numerische Daten werden ausgeschlossen und ausgeführt.
trainX = pd.get_dummies(train[["Spaltenname 1","Spaltenname 2",...,"Spaltenname n"]])
testX = pd.get_dummies(test[["Spaltenname 1","Spaltenname 2",...,"Spaltenname n"]])

#Zuordnung der Zielvariablen
y = train["Spaltenname"]

#Erstellen Sie Variablen für das Regressionsmodell
model = LR()

#Erstellen eines multiplen Regressionsmodells
model.fit(trainX,y)

Recommended Posts

Predictive Statistics (Practice Edition Multiple Regression) Python
Vorhersagestatistik (einfache Regression üben) Python
Predictive Statistics (Übungsklassifizierung) Python
Mehrfacher Regressionsausdruck in Python
Statistik mit Python
Prädiktive Statistik (Theorie)
Anfänger üben Python
2. Multivariate Analyse in Python 2-1. Multiple Regressionsanalyse (Scikit-Learn)
Erste Python 3rd Edition
Python für Feature Prediction Statistics
Merge Nodes-Houdini Python Practice
Python: Überwachtes Lernen (Rückkehr)
Regressionsanalyse mit Python