[PYTHON] [Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)

thème

Le 5ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "House Price" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. Je veux penser que la fin est sur le point d'être vue.

Le travail d'aujourd'hui

Dummy des variables catégorielles

C'est comme remplacer les chaînes de caractères par des nombres.

#Lister les fonctionnalités des variables catégorielles
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
#Lister les caractéristiques des variables numériques
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
#Liste des colonnes requises pour le fractionnement et la soumission des données
other_cols = ['Id','WhatIsData']
#Supprimer les éléments supplémentaires de la liste
cat_cols.remove('WhatIsData') #Suppression de l'indicateur de distinction des données d'entraînement / données de test
num_cols.remove('Id') #Id supprimer
#Variables catégoriques factices
alldata_cat = pd.get_dummies(alldata[cat_cols])
#Intégration de données
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)

Lister les fonctionnalités des variables catégorielles

Oh, je pense que je suis entassé. La réponse mystérieuse. Ensuite, je voudrais sortir uniquement les résultats suivants ensemble. Seul le type de données de type objet a l'index dans la liste.

cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist() スクリーンショット 2020-06-22 12.05.14.png

Lister les caractéristiques des variables numériques

num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()

Cela revient à lister les caractéristiques des variables catégorielles, je vais donc l'omettre.

Liste des colonnes requises pour le fractionnement et la soumission des données

other_cols = ['Id','WhatIsData']

Comme vous pouvez le voir, les colonnes ajoutées dans la partie 2 sont stockées dans le tableau. Apparemment, cette prochaine étape sera utilisée pour supprimer des éléments supplémentaires de la liste.

Supprimer les éléments supplémentaires de la liste

Il semble que cela supprime les éléments inutiles de la liste. Vous pouvez également confirmer à partir de la sortie précédente qu'il y avait un élément appelé WhatIsData dans cat_cols.

cat_cols.remove ('WhatIsData') # Suppression du drapeau de distinction des données de formation / données de test num_cols.remove ('Id') #Id remove

Variables catégoriques factices

alldata_cat = pd.get_dummies(alldata[cat_cols])

Impression inhabituelle. C'est tellement pratique que vous pouvez simplement l'appliquer à une fonction et qu'il fera tout pour vous ... J'aime ce genre de python.

ʻAlldata_cat = pd.get_dummies (alldata [cat_cols]) `résultat de sortie. C'est incroyable, ça a vraiment changé. スクリーンショット 2020-06-22 12.15.49.png

Intégration de données

all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)

C'est exactement ce que j'ai vu. Combinez [alldata [other_cols], alldata [num_cols], alldata_cat avec concat. (J'en suis venu à dire que ça a l'air super)

C'est tout.

Avez-vous procédé à un bon rythme cette fois? Il semble que cela ne prenne pas beaucoup de temps pour lire et comprendre de manière inattendue. On a l'impression de s'y habituer. Je continuerai à me consacrer. Maintenant que les données ont été formatées, il est temps de les analyser. J'ai hâte d'y être.

Recommended Posts

[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
Prédiction des prix des logements (retour par régression linéaire (kaggle)) ver1.0
[Pour les débutants] Lire les informations d'authentification DB à partir des variables d'environnement