introduction

Qu'arrive-t-il à l'ensemble des données lors de l'analyse des données? Vous voudrez peut-être le confirmer. Je vais donc écrire sur la façon d'obtenir une vue d'ensemble de l'ensemble des données dans les pandas. Je vais d'abord résumer les méthodes existantes, puis je présenterai ma propre méthode.

environnement

python 3.7.4、pandas 0.25.1

Méthode existante

pandas.DataFrame a déjà les méthodes .info () et .describe () pour regrouper les données. Quelqu'un les a déjà résumés, veuillez donc vous y référer (Aperçu des données avec Pandas). Il est facile d'afficher uniquement le résultat (je suis désolé que les données soient les mêmes titanesques et ressemblent à un pakuri ...).

import pandas as pd
data = pd.read_csv("train.csv") #Lire les données

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

data.describe()

Méthode artisanale

Cependant, avec cela seul, il y a une légère démangeaison. Par exemple, describe () ne connaît pas les informations de type et de valeur manquante, mais il est difficile de faire à la fois info () et describe () deux fois. J'ai donc créé une méthode qui combine info () et describe ().

import numpy as np

def summarize_data(df):

    df_summary=pd.DataFrame({'nunique':np.zeros(df.shape[1])}, index=df.keys())

    df_summary['nunique']=df.nunique()
    df_summary['dtype']=df.dtypes
    df_summary['isnull']=df.isnull().sum()
    df_summary['first_val']=df.iloc[0]
    df_summary['max']=df.max(numeric_only=True)
    df_summary['min']=df.min(numeric_only=True)
    df_summary['mean']=df.mean(numeric_only=True)
    df_summary['std']=df.std(numeric_only=True)
    df_summary['mode']=df.mode().iloc[0]
    
    pd.set_option('display.max_rows', len(df.keys())) #N'omettez pas l'affichage
    
    return df_summary

summarize_data(data)

De plus, dans le noyau kaggle etc., l'affichage est omis lorsque le nombre de données est grand, il est donc défini de manière à ne pas être omis dans la dernière ligne de summary_df ().

Résumé

J'ai présenté la méthode existante qui résume le résumé des données de pandas.DataFrame et la méthode auto-conçue qui les combine. Non seulement vous pouvez obtenir une vue d'ensemble au début, mais vous pouvez également l'utiliser pour vérifier si la conversion d'échelle et le traitement des valeurs manquantes sont correctement effectués. Ce serait pratique d'avoir une autre colonne comme celle-ci, merci de me le faire savoir si vous en avez!

[PYTHON] Comment obtenir un aperçu de vos données dans Pandas

introduction

environnement

Méthode existante

Méthode artisanale

Résumé