Statistiques prédictives (pratique de la régression multiple) Python

N'hésitez pas à commenter car il peut y avoir des erreurs parce que je l'ai écrit comme un résultat d'étude. Cette fois, nous continuerons à améliorer la précision des prédictions en continuant avec Prediction Statistics (Practice Edition Simple Regression) Python.

Contenu

・ Qu'est-ce que l'analyse de régression multiple? ・ Qu'est-ce qu'une variable factice? ・ Méthode de modélisation de régression multiple

Qu'est-ce que l'analyse de régression multiple?

La seule différence entre l'analyse de régression multiple et l'analyse de régression simple est de savoir s'il existe plusieurs ou une variable explicative. L'analyse de régression multiple améliore la précision des prévisions car il y a plus d'événements (variables explicatives) qui expliquent la variable objective. Cependant, s'il y a trop de variables explicatives, un surapprentissage peut se produire et la précision des prévisions peut diminuer. Par conséquent, la sélection des variables explicatives est très importante dans la régression multiple.

Qu'est-ce qu'une variable fictive?

Une variable factice est de représenter quelque chose qui ne peut pas être représenté par une valeur numérique telle que la météo. C'est un facteur très important dans la régression multiple. python fournit une fonction qui peut être transformée en une variable factice. Vous pouvez le convertir en valeur numérique en procédant comme suit.

pd.get_dummies("Variables que vous souhaitez transformer en variables factices")

Comment modéliser la régression multiple

La modélisation en régression multiple est presque la même que la régression simple. Cela ne fait qu'augmenter les variables explicatives à attribuer. La quantité de code que vous écrivez peut également être inférieure à une simple régression. Regardons en fait le code. (Les valeurs manquantes ont été corrigées)

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
#Afficher dans le navigateur actuel
%matplotlib inline 
from sklearn.linear_model import LinearRegression as LR

#données précédentes
train = pd.read_csv("train.csv")
#Données de prévision
test = pd.read_csv("test.csv") 
#Données pour saisir des valeurs prédites
sample = pd.read_csv("sample.csv")

#Remplacer les variables explicatives
#Les données numériques sont exclues et exécutées.
trainX = pd.get_dummies(train[["Nom de colonne 1","Nom de colonne 2",...,"Nom de colonne n"]])
testX = pd.get_dummies(test[["Nom de colonne 1","Nom de colonne 2",...,"Nom de colonne n"]])

#Affectation de la variable objective
y = train["Nom de colonne"]

#Créer des variables pour le modèle de régression
model = LR()

#Créer un modèle de régression multiple
model.fit(trainX,y)

Recommended Posts

Statistiques prédictives (pratique de la régression multiple) Python
Statistiques prédictives (pratique de la régression simple) Python
Statistiques prédictives (classification des pratiques) Python
Expression de régression multiple en Python
Statistiques avec python
Statistiques prédictives (théorie)
Les débutants pratiquent Python
2. Analyse multivariée décrite dans Python 2-1. Analyse de régression multiple (scikit-learn)
Première 3e édition de Python
Statistiques de prédiction de fonctionnalités python
Merge Nodes-Houdini Python Practice
Python: apprentissage supervisé (retour)
Analyse de régression avec Python