[PYTHON] Vérifiez l'état des données à l'aide de pandas_profiling

Aperçu

Si vous êtes un ingénieur de données ou un responsable de la maintenance des données, vous pouvez utiliser divers outils pour vérifier les incohérences des données ou vous pouvez les frapper avec SQL pour les vérifier. Récemment, je fais souvent de telles choses. Surtout quand une nouvelle liaison de données commence, je regarde souvent le contenu des données. Pandas_profiling est utile dans un tel cas.

Comment installer

pip install pandas-profiling[notebook]

Comment utiliser

import pandas_profiling as pdp
from sklearn.datasets import load_boston

data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)

profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")

Je veux souvent juste connaître la distribution des données, donc j'ajoute une option pour ne pas calculer la corrélation. Il est également produit au format HTML pour être partagé avec d'autres personnes.

résultat

Lorsque vous l'exécutez sur le bloc-notes Jupyter, la barre de processus s'affiche comme indiqué ci-dessous et vous pouvez voir l'état du traitement. Vous pouvez voir l'état des données de chaque élément. Je suis particulièrement intéressé par les valeurs manquantes, ce qui est très utile car il montre le nombre et le pourcentage de valeurs manquantes.

スクリーンショット 2020-07-14 11.02.34.png スクリーンショット 2020-07-14 11.03.20.png

Recommended Posts

Vérifiez l'état des données à l'aide de pandas_profiling
Vérifiez le type de variable que vous utilisez
Gratter les données gagnantes de Numbers à l'aide de Docker
J'ai essayé d'utiliser l'API de Sakenowa Data Project
Comprendre l'état de la perte de données - Python vs R
Vérifiez le type et la version de la distribution Linux
Vérifiez l'état de la mémoire du serveur avec la commande gratuite Linux
Vérifiez l'état de fonctionnement du serveur avec la commande Linux top
[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia
Vérifiez la valeur de retour avec PEP 380
Vérifiez le résumé des données dans CASTable
Recommandation d'analyse des données à l'aide de MessagePack
Visualisez l'état de la réponse du recensement national 2020
[Apprentissage automatique] Vérifiez les performances du classificateur à l'aide de données de caractères manuscrites
Expliquer le mécanisme de la classe de données PEP557
Vérifiez le comportement du destroyer en Python
Comment vérifier la version de Django
Obtenez la liste des colonnes et la liste des données de CASTable
Vérifier l'existence du fichier avec python
Essayez d'obtenir l'état de la surface de la route en utilisant de grandes données de gestion de la surface de la route
Vérifier l'exactitude de la formule de notation «RC» à l'aide des données réelles du baseball professionnel
Vérifiez le chemin du module importé Python
Visualisez les données d'exportation du journal Piyo
Connaissance de l'utilisation de l'API de données Aurora Severless
Essayez de tracer la concentration environnementale des composés organiques du fluor sur une carte à l'aide de données ouvertes
Vérifions la transition démographique de la ville de Matsue, préfecture de Shimane avec des données ouvertes
Vérifiez le fonctionnement d'OpenCV3 installé par Anaconda
[python] Vérifier les éléments de la liste tous, tous
Raccourcir le temps d'analyse d'Openpose à l'aide du son
Estimation de l'effet des mesures à l'aide des scores de propension
Sortie exclusive de l'application Django utilisant ngrok
Afficher dynamiquement les données épidémiques à l'aide du tableau de bord Grafana
[2020July] Vérifiez l'UDID de l'iPad sous Linux
Vérifiez la date du devoir de drapeau avec Python
[Pandas] Principes de base du traitement des données de date à l'aide de dt
L'histoire de la lecture des données HSPICE en Python
Visualisation de l'état d'utilisation de l'évier dans l'entreprise
Essayez d'utiliser le module de collections (ChainMap) de python3
Étude introductive sur Python-Sortie des données de vente à l'aide de tapple-
Déterminez le nombre de classes à l'aide de la formule Starges
J'ai essayé d'utiliser le filtre d'image d'OpenCV
Transition du baseball vue à partir des données
Téléchargez les données éoliennes de l'Agence météorologique
Quelle est la force de votre Qiita? Statistiques sur le nombre de Contributes visibles dans les données
Calcul de l'itinéraire le plus court selon la méthode de Monte Carlo
Un moyen simple de vérifier la source des modules Python
[Python] [Word] [python-docx] Analyse simple des données de diff en utilisant python
Découpez une partie de la chaîne à l'aide d'une tranche Python
Analyse de Big Data à l'aide du framework de contrôle de flux de données Luigi
Dessinez sur Jupyter en utilisant la fonction de tracé des pandas
J'ai essayé de regrouper les données ECG en utilisant la méthode K-Shape
Ne pas être conscient du contenu des données en python
Explication du concept d'analyse de régression à l'aide de Python Partie 1
Écrire des données dans KINTONE à l'aide du module de requêtes Python
Publiez sur votre compte en utilisant l'API sur Twitter
Utilisons les données ouvertes de "Mamebus" en Python
Vérifier l'existence de tables BigQuery en Java
Analysons les émotions de Tweet en utilisant Chainer (2ème)
Explication du concept d'analyse de régression à l'aide de Python Extra 1
Étude de Python Hour8: Utilisation de packages