Qu'arrive-t-il à l'ensemble des données lors de l'analyse des données? Vous voudrez peut-être le confirmer. Je vais donc écrire sur la façon d'obtenir une vue d'ensemble de l'ensemble des données dans les pandas. Je vais d'abord résumer les méthodes existantes, puis je présenterai ma propre méthode.
python 3.7.4、pandas 0.25.1
pandas.DataFrame a déjà les méthodes .info () et .describe () pour regrouper les données. Quelqu'un les a déjà résumés, veuillez donc vous y référer (Aperçu des données avec Pandas). Il est facile d'afficher uniquement le résultat (je suis désolé que les données soient les mêmes titanesques et ressemblent à un pakuri ...).
import pandas as pd
data = pd.read_csv("train.csv") #Lire les données
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Sex 891 non-null object
Age 714 non-null float64
SibSp 891 non-null int64
Parch 891 non-null int64
Ticket 891 non-null object
Fare 891 non-null float64
Cabin 204 non-null object
Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
data.describe()
Cependant, avec cela seul, il y a une légère démangeaison. Par exemple, describe () ne connaît pas les informations de type et de valeur manquante, mais il est difficile de faire à la fois info () et describe () deux fois. J'ai donc créé une méthode qui combine info () et describe ().
import numpy as np
def summarize_data(df):
df_summary=pd.DataFrame({'nunique':np.zeros(df.shape[1])}, index=df.keys())
df_summary['nunique']=df.nunique()
df_summary['dtype']=df.dtypes
df_summary['isnull']=df.isnull().sum()
df_summary['first_val']=df.iloc[0]
df_summary['max']=df.max(numeric_only=True)
df_summary['min']=df.min(numeric_only=True)
df_summary['mean']=df.mean(numeric_only=True)
df_summary['std']=df.std(numeric_only=True)
df_summary['mode']=df.mode().iloc[0]
pd.set_option('display.max_rows', len(df.keys())) #N'omettez pas l'affichage
return df_summary
summarize_data(data)
De plus, dans le noyau kaggle etc., l'affichage est omis lorsque le nombre de données est grand, il est donc défini de manière à ne pas être omis dans la dernière ligne de summary_df ().
J'ai présenté la méthode existante qui résume le résumé des données de pandas.DataFrame et la méthode auto-conçue qui les combine. Non seulement vous pouvez obtenir une vue d'ensemble au début, mais vous pouvez également l'utiliser pour vérifier si la conversion d'échelle et le traitement des valeurs manquantes sont correctement effectués. Ce serait pratique d'avoir une autre colonne comme celle-ci, merci de me le faire savoir si vous en avez!
Recommended Posts