[PYTHON] "Kaggle memorandum" Rechercher / supprimer les valeurs manquantes

Objectif

Une note sur la façon de supprimer les colonnes avec des valeurs manquantes.

Données d'environnement / d'utilisation

Données utilisées: Kaggle cources: Données de location pour Intermediate Machine Learning --Missing Values

Environnement: cahier Kaggle

Ce que j'ai fait

Préparation du module / os, lecture des données

DropColumn.py


#os,Importation de module
import os
import pandas as pd

#Lire les données
X_full=pd.read_csv('../input/train.csv',index_col='Id')

X_full a les index suivants

DropColumn.py


X_full.columns
スクリーンショット 2020-02-18 9.57.36.png

Parmi eux, la colonne contenant le défaut est

DropColumn.py


cols_missing=[col for col in X_full.columns
            if X_full[col].isnull().any()]
cols_missing
スクリーンショット 2020-02-18 9.58.59.png

Il semble. Supprimez-les tous à la fois.

DropColumn.py


reduced_X_full=X_full.drop(cols_missing,axis=1)
reduced_X_full
スクリーンショット 2020-02-18 10.00.27.png

Suppression terminée.

2. Achèvement des valeurs manquantes

Comment utiliser SimpleImputer de scikit-learn

«SimpleImputer» utilise des valeurs statistiques telles que la médiane et la moyenne pour compléter les valeurs manquantes.

Par exemple, si vous souhaitez compléter avec la médiane Spécifiez comme ʻimputer = SimpleImputer (strategy = 'median') `.

ImputeValue.py


#Définition d'imputer
from sklearn.impute import SimpleImputer
imputer=SimpleImputer(strategy='median')

#X_Compléter toutes les valeurs manquantes
imputed_X_full=pd.DataFrame(imputer.fit_transform(X_full))

À ce rythme, les noms de colonne de ʻimputed_X_full` sont dans l'ordre.

ImputeValue.py


imputer_X_full.columns
スクリーンショット 2020-02-18 11.44.55.png Annuler le nom de la colonne

ImputeValue.py


imputed_X_full.columns=X_full.columns
imputed_X_full.columns
スクリーンショット 2020-02-18 11.45.42.png

Achèvement terminé.

Recommended Posts

"Kaggle memorandum" Rechercher / supprimer les valeurs manquantes
Remplissez les valeurs manquantes avec Scikit-learn impute
Supprimer les lignes avec des valeurs arbitraires dans pandas DataFrame
Gérer les types entiers avec des valeurs manquantes dans Pandas
Comment vérifier les valeurs manquantes (Kaggle: House Prices)
Dichotomie avec Python
Recherche linéaire en Python
Échange de valeurs en Python
Recherche binaire en Python
Prétraitement dans l'apprentissage automatique 3 Données de valeur manquante / aberrante / de déséquilibre