Was passiert mit den gesamten Daten bei der Datenanalyse? Vielleicht möchten Sie das bestätigen. Also werde ich darüber schreiben, wie man sich einen Überblick über die gesamten Daten in Pandas verschafft. Zuerst werde ich die vorhandenen Methoden zusammenfassen und dann meine eigene Methode vorstellen.
python 3.7.4、pandas 0.25.1
pandas.DataFrame verfügt bereits über die Methoden .info () und .describe () zum Gruppieren von Daten. Jemand hat diese bereits zusammengefasst. Bitte beziehen Sie sich darauf (Datenübersicht über Pandas). Es ist einfach, nur das Ergebnis anzuzeigen (es tut mir leid, dass die Daten identisch sind und wie ein Pakuri aussehen ...).
import pandas as pd
data = pd.read_csv("train.csv") #Daten lesen
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId 891 non-null int64
Survived 891 non-null int64
Pclass 891 non-null int64
Name 891 non-null object
Sex 891 non-null object
Age 714 non-null float64
SibSp 891 non-null int64
Parch 891 non-null int64
Ticket 891 non-null object
Fare 891 non-null float64
Cabin 204 non-null object
Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
data.describe()
Allein damit gibt es jedoch einen leichten Juckreiz. Zum Beispiel kennt description () den Typ und die fehlenden Wertinformationen nicht, aber es ist mühsam, sowohl info () als auch description () zweimal auszuführen. Also habe ich eine Methode erstellt, die info () und description () kombiniert.
import numpy as np
def summarize_data(df):
df_summary=pd.DataFrame({'nunique':np.zeros(df.shape[1])}, index=df.keys())
df_summary['nunique']=df.nunique()
df_summary['dtype']=df.dtypes
df_summary['isnull']=df.isnull().sum()
df_summary['first_val']=df.iloc[0]
df_summary['max']=df.max(numeric_only=True)
df_summary['min']=df.min(numeric_only=True)
df_summary['mean']=df.mean(numeric_only=True)
df_summary['std']=df.std(numeric_only=True)
df_summary['mode']=df.mode().iloc[0]
pd.set_option('display.max_rows', len(df.keys())) #Lassen Sie die Anzeige nicht aus
return df_summary
summarize_data(data)
Außerdem wird im Kaggle-Kernel usw. die Anzeige weggelassen, wenn die Anzahl der Daten groß ist, sodass sie so eingestellt ist, dass sie in der letzten Zeile von summize_df () nicht weggelassen wird.
Ich habe die vorhandene Methode vorgestellt, die die Datenzusammenfassung von pandas.DataFrame und die selbst erstellte Methode, die sie kombiniert, zusammenfasst. Sie können sich zu Beginn nicht nur einen Überblick verschaffen, sondern auch überprüfen, ob die Skalenkonvertierung und die Verarbeitung fehlender Werte ordnungsgemäß durchgeführt wurden. Es wäre praktisch, eine andere Spalte wie diese zu haben. Bitte lassen Sie mich wissen, wenn Sie eine haben!