[PYTHON] [Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)

thème

Cliquez ici pour le premier contenu La deuxième partie du projet consiste à prendre note du contenu des travaux pratiques que tout le monde va contester le fameux thème "Prix de la maison" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part.

Le travail d'aujourd'hui

Confirmation des valeurs manquantes (ne peut pas être complétée)

En conclusion, il semble qu'il y ait pas mal de valeurs manquantes.

Statut manquant des données d'entraînement (valeur manquante)

train.isnull().sum()[train.isnull().sum()>0].sort_values(ascending=False)

Valeur manquante

Lors de la préparation d'un fichier de données, vous devez saisir une valeur numérique même si les données sont manquantes. Cependant, la valeur numérique saisie indique qu'il n'y avait en fait aucune donnée, il est donc nécessaire de l'exclure de la cible d'analyse. Par conséquent, entrez une valeur (valeur manquante) qui peut être clairement distinguée des autres données valides.

.isnull()

.sum()

.sort_values()

Données de test manquantes

L'explication est la même que les données d'entraînement, je vais donc l'omettre.

test.isnull().sum()[test.isnull().sum()>0].sort_values(ascending=False)

Statut de perte de données d'entraînement (type de données)

.index.tolist()

#Vérifiez le type de données de la colonne contenant le défaut
na_col_list = alldata.isnull().sum()[alldata.isnull().sum()>0].index.tolist() #Répertorier les colonnes contenant des défauts
alldata[na_col_list].dtypes.sort_values() #Type de données

.dtypes

スクリーンショット 2020-05-25 12.21.40.png

Comprendre et gérer les situations de carence

Ceci est une description des opinions sur la manière de traiter les données de manière statistique. Nous vous recommandons de le lire et de le comprendre normalement. Une histoire différente de la compréhension de la programmation.

Les données d'entraînement et les données de test manquent considérablement. Dans un tel cas, vous souhaiterez supprimer la colonne présentant de nombreux défauts. Mais avant cela, Kaggle a un document détaillant les variables, alors jetons un coup d'œil dessus. Lorsque vous téléchargez les données de Kaggle, vous remarquerez qu'il contient également un fichier appelé "data_description.txt". Ce fichier détaille les données stockées dans les variables. Ensuite, vous pouvez voir que la majorité des lacunes ne signifie pas qu'il n'y a pas d'informations, mais que les lacunes elles-mêmes sont des informations. Par exemple, jetons un coup d'œil à PoolQC (qualité de la piscine), qui présente le plus de défauts. La perte de cette variable signifie que la piscine n'existe pas dans la maison et que la perte de données elle-même est une information. Pour les autres variables (variables catégorielles), une déficience signifie simplement que l'installation ou l'équipement n'existe pas. De plus, pour les variables numériques, la carence signifie uniquement que la surface occupée est nulle et qu'elle n'est pas sans information. Par conséquent, la complétion suivante est effectuée pour la perte des variables catégorielles et des variables de type numérique.

C'est tout.

Hmmm. Je viens de regarder les données.

Recommended Posts

[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
Prédiction des prix des logements (retour par régression linéaire (kaggle)) ver1.0
Comment vérifier les valeurs manquantes (Kaggle: House Prices)