[PYTHON] Comment vérifier les valeurs manquantes (Kaggle: House Prices)

en premier

L'une des choses importantes dans l'analyse des données est de vérifier le contenu des données. Cette fois, je présenterai une méthode de vérification des valeurs manquantes que même les non-ingénieurs peuvent faire.

Charger le jeu de données

Importez des pandas pour charger l'ensemble de données. Cette fois, nous utiliserons les données de train.csv dans Kaggle's House Prices: Advanced Regression Techniques.

House Prices: Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques

import pandas as pd
data = pd.read_csv('../train.csv')

Affichage à partir d'éléments avec de nombreuses valeurs manquantes

Définissez les données que vous souhaitez archiver df. Dans ce cas, nous examinerons le train.csv défini ci-dessus.

#Comment vérifier les valeurs manquantes
df=data #Enregistrer l'ensemble de données dans df
total = df.isnull().sum()
percent = round(df.isnull().sum()/df.isnull().count()*100,2)

missing_data = pd.concat([total,percent],axis =1, keys=['Total','Ratio_of_NA(%)'])
type=pd.DataFrame(df[missing_data.index].dtypes, columns=['Types'])
missing_data=pd.concat([missing_data,type],axis=1)
missing_data=missing_data.sort_values('Total',ascending=False)
missing_data.head(20)

print(missing_data.head(20))
print()
print(set(missing_data['Types']))
print()
print("---Categorical col---")
print(missing_data[missing_data['Types']=="object"].index)
print()
print("---Numerical col---")
print(missing_data[missing_data['Types'] !="object"].index)

missingvalue.PNG

Visualisation des valeurs manquantes

Vous pouvez utiliser le code ci-dessus pour connaître le pourcentage de valeurs manquantes. Mais où sont les valeurs manquantes, telles que les ensembles de données chronologiques? Il y a des moments où vous voulez savoir. Dans de tels cas, utilisez la carte thermique.

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

df = data
plt.figure(figsize=(16,16)) #Réglage de la taille
plt.title("Missing Value") #Titre
sns.heatmap(df.isnull(), cbar=False) #Affichage de la carte thermique

heat.png

Résumé

En enregistrant divers ensembles de données dans le df de chaque code, il est possible de déterminer automatiquement si chaque colonne est de type texte ou numérique et de visualiser les valeurs manquantes.

Recommended Posts

Comment vérifier les valeurs manquantes (Kaggle: House Prices)
[Pour les non-programmeurs] Comment marcher Kaggle
Challenge Kaggle [Prix de la maison]
Python # Comment vérifier le type et le type pour les super débutants
Prix Kaggle House ③ ~ Prévisions / Soumission ~
Prix des maisons Kaggle ② ~ Modélisation ~
Prix des maisons Kaggle ① ~ Ingénierie des fonctionnalités ~
[Python] Comment permuter les valeurs de tableau
Comment vérifier la version du système d'exploitation Linux
[Python] Comment extraire / supprimer / convertir une matrice contenant des valeurs manquantes (NaN)
Comment vérifier la version de Django
Comment créer un fichier * .spec pour pyinstaller.
"Kaggle memorandum" Rechercher / supprimer les valeurs manquantes
[Python] Organisation de l'utilisation des instructions
Comment vérifier la version d'opencv avec python
Comment installer le sous-système Windows pour Linux
Comment gérer des valeurs consécutives dans MySQL
Comment utiliser "deque" pour les données Python
Comment utiliser l'authentification par empreinte digitale pour KDE
Comment attribuer plusieurs valeurs à la barre de couleurs Matplotlib
Comment utiliser MkDocs pour la première fois
Comment créer un plug-in Spigot (pour les débutants Java)
Comment utiliser Template Engine pour Network Engineer
Comment installer Python pour les chercheurs de sociétés pharmaceutiques
Comment utiliser les outils d'analyse de données pour les débutants
Comment vérifier / extraire des fichiers dans un package RPM
De l'installation de ROS pour Windows au contrôle de fonctionnement
Comment écrire une instruction ShellScript Bash for
[ESXi (vCenter)] Comment ajouter une carte réseau pour CentOS 7.3
Nettoyage des données Comment gérer les valeurs manquantes et aberrantes
Comment rendre le Python des débutants plus rapide [numpy]
[Pour les débutants] Comment étudier la programmation Mémo privé
Comment trouver la corrélation pour les variables catégorielles
Comment forcer TensorFlow 2.3.0 à construire pour CUDA11 + cuDNN8
Comment définir l'affinité du processeur pour les threads de processus
Vérifiez! Comment utiliser Azure Key Vault avec Azure SDK pour Python! (Mesures autour de la certification)
[Introduction à Azure pour les utilisateurs de kaggle] Comparaison du démarrage et de l'utilisation de la machine virtuelle Azure Notebooks et Azure Notebooks
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)