Bitte zögern Sie nicht zu kommentieren, da es einige Fehler beim Schreiben als Ergebnis der Studie geben kann. Dieses Mal werden wir die Vorhersagegenauigkeit weiter verbessern, indem wir mit Vorhersagestatistik (Practice Edition Simple Regression) Python fortfahren.
・ Was ist eine multiple Regressionsanalyse? ・ Was ist eine Dummy-Variable? ・ Modellierungsmethode für mehrere Regressionen
Der einzige Unterschied zwischen der multiplen Regressionsanalyse und der einfachen Regressionsanalyse besteht darin, ob es mehrere oder eine erklärende Variable gibt. Die multiple Regressionsanalyse verbessert die Vorhersagegenauigkeit, da mehr Ereignisse (erklärende Variablen) die objektive Variable erklären. Wenn jedoch zu viele erklärende Variablen vorhanden sind, kann es zu Überlernen kommen und die Vorhersagegenauigkeit kann abnehmen. Daher ist die Auswahl erklärender Variablen bei der multiplen Regression sehr wichtig.
Eine Dummy-Variable soll etwas darstellen, das nicht durch einen numerischen Wert wie das Wetter dargestellt werden kann. Dies ist ein sehr wichtiger Faktor bei der multiplen Regression. Python bietet eine Funktion, die in eine Dummy-Variable umgewandelt werden kann. Sie können es wie folgt in einen numerischen Wert konvertieren.
pd.get_dummies("Variablen, die Sie zu Dummy-Variablen machen möchten")
Die Modellierung in multipler Regression entspricht fast der einfachen Regression. Es werden nur die zuweisenden erklärenden Variablen erhöht. Die Menge an Code, die Sie schreiben, kann auch geringer sein als die einfache Regression. Schauen wir uns den Code an. (Fehlende Werte wurden korrigiert)
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
#Anzeige im aktuellen Browser
%matplotlib inline
from sklearn.linear_model import LinearRegression as LR
#vorherige Daten
train = pd.read_csv("train.csv")
#Prognosedaten
test = pd.read_csv("test.csv")
#Daten zur Eingabe vorhergesagter Werte
sample = pd.read_csv("sample.csv")
#Ersetzen Sie erklärende Variablen
#Numerische Daten werden ausgeschlossen und ausgeführt.
trainX = pd.get_dummies(train[["Spaltenname 1","Spaltenname 2",...,"Spaltenname n"]])
testX = pd.get_dummies(test[["Spaltenname 1","Spaltenname 2",...,"Spaltenname n"]])
#Zuordnung der Zielvariablen
y = train["Spaltenname"]
#Erstellen Sie Variablen für das Regressionsmodell
model = LR()
#Erstellen eines multiplen Regressionsmodells
model.fit(trainX,y)
Recommended Posts