[PYTHON] So erhalten Sie einen Überblick über Ihre Daten in Pandas

Einführung

Was passiert mit den gesamten Daten bei der Datenanalyse? Vielleicht möchten Sie das bestätigen. Also werde ich darüber schreiben, wie man sich einen Überblick über die gesamten Daten in Pandas verschafft. Zuerst werde ich die vorhandenen Methoden zusammenfassen und dann meine eigene Methode vorstellen.

Umgebung

python 3.7.4、pandas 0.25.1

Bestehende Methode

pandas.DataFrame verfügt bereits über die Methoden .info () und .describe () zum Gruppieren von Daten. Jemand hat diese bereits zusammengefasst. Bitte beziehen Sie sich darauf (Datenübersicht über Pandas). Es ist einfach, nur das Ergebnis anzuzeigen (es tut mir leid, dass die Daten identisch sind und wie ein Pakuri aussehen ...).

import pandas as pd
data = pd.read_csv("train.csv") #Daten lesen
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
data.describe()

describe.png

Selbstgemachte Methode

Allein damit gibt es jedoch einen leichten Juckreiz. Zum Beispiel kennt description () den Typ und die fehlenden Wertinformationen nicht, aber es ist mühsam, sowohl info () als auch description () zweimal auszuführen. Also habe ich eine Methode erstellt, die info () und description () kombiniert.

import numpy as np

def summarize_data(df):

    df_summary=pd.DataFrame({'nunique':np.zeros(df.shape[1])}, index=df.keys())

    df_summary['nunique']=df.nunique()
    df_summary['dtype']=df.dtypes
    df_summary['isnull']=df.isnull().sum()
    df_summary['first_val']=df.iloc[0]
    df_summary['max']=df.max(numeric_only=True)
    df_summary['min']=df.min(numeric_only=True)
    df_summary['mean']=df.mean(numeric_only=True)
    df_summary['std']=df.std(numeric_only=True)
    df_summary['mode']=df.mode().iloc[0]
    
    pd.set_option('display.max_rows', len(df.keys())) #Lassen Sie die Anzeige nicht aus
    
    return df_summary

summarize_data(data)

summarize.png

Außerdem wird im Kaggle-Kernel usw. die Anzeige weggelassen, wenn die Anzahl der Daten groß ist, sodass sie so eingestellt ist, dass sie in der letzten Zeile von summize_df () nicht weggelassen wird.

Zusammenfassung

Ich habe die vorhandene Methode vorgestellt, die die Datenzusammenfassung von pandas.DataFrame und die selbst erstellte Methode, die sie kombiniert, zusammenfasst. Sie können sich zu Beginn nicht nur einen Überblick verschaffen, sondern auch überprüfen, ob die Skalenkonvertierung und die Verarbeitung fehlender Werte ordnungsgemäß durchgeführt wurden. Es wäre praktisch, eine andere Spalte wie diese zu haben. Bitte lassen Sie mich wissen, wenn Sie eine haben!

Recommended Posts

So erhalten Sie einen Überblick über Ihre Daten in Pandas
So erhalten Sie Hilfe in einer interaktiven Shell
So ermitteln Sie die Anzahl der Stellen in Python
Wie man nüchtern mit Pandas schreibt
So erhalten Sie eine Liste der integrierten Ausnahmen für Python
Data Science-Begleiter in Python, wie man Elemente in Pandas spezifiziert
So finden Sie heraus, ob "irgendwo" von pandas DataFrame einen Wert enthält
So berechnen Sie die Summe oder den Durchschnitt von Zeitreihen-CSV-Daten in einem Augenblick
<Pandas> Umgang mit Zeitreihendaten in der Pivot-Tabelle
Wie erstelle ich eine große Menge an Testdaten in MySQL? ??
Ich werde erklären, wie man Pandas auf leicht verständliche Weise benutzt.
Wie man lange Einschlüsse loswird
Wie bekomme ich Stacktrace in Python?
So weisen Sie den Index im Pandas-Datenrahmen neu zu
Lesen von CSV-Dateien mit Pandas
So entfernen Sie die "Tags müssen ein Array von Hashes sein." Fehler in Qiita API
So ändern Sie mehrere Spalten von csv in Pandas (Unixtime-> Japan Time)
So erhalten Sie mit pandas DataFrame einen bestimmten Spaltennamen und Indexnamen
So senden Sie ein visualisiertes Bild der in Python erstellten Daten an Typetalk
So verfolgen Sie die Arbeit mit Powershell
Zusammenfassung zum Importieren von Dateien in Python 3
So erhalten Sie Ergebnisse von id in Celery
[Django] So erhalten Sie Daten durch Angabe von SQL.
Zusammenfassung der Verwendung von MNIST mit Python
So erhalten Sie Artikeldaten mithilfe der Qiita-API
So erstellen Sie Daten für CNN (Chainer)
Ich möchte die Daten von League of Legends ③ erhalten
Ich möchte die Daten von League of Legends ② erhalten
So erhalten Sie Elemente vom Typ Wörterbuch von Python 2.7
So erhalten Sie die Dateien im Ordner [Python]
Lesen von Zeitreihendaten in PyTorch
Ich möchte League of Legends-Daten erhalten ①
Pandas-Grundlagen für Anfänger ② Übersicht über die Daten
Der erste Schritt zur Protokollanalyse (Formatieren und Einfügen von Protokolldaten in Pandas)
So erhalten Sie mit Python eine Liste der Dateien im selben Verzeichnis
[Einführung in Python] So erhalten Sie den Datenindex mit der for-Anweisung
Verwendung von Pandas 2
So erhalten Sie den Variablennamen selbst in Python
Zusammenfassung der Tools, die zum Analysieren von Daten in Python benötigt werden
So wenden Sie mit matplotlib Marker nur auf bestimmte Daten an
So erhalten Sie mehrere Modellobjekte zufällig in Django
Zugriff mit dem Cache beim Lesen von_json mit Pandas
So erhalten Sie mit SQLAlchemy + MySQLdb mehr als 1000 Daten
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
So geben Sie die CSV eines mehrzeiligen Headers mit Pandas aus
So erstellen Sie ein interaktives CLI-Tool mit Golang
So erstellen Sie einen Bild-Uploader mit Bottle (Python)
Ich habe versucht zusammenzufassen, wie man Pandas von Python benutzt
So extrahieren Sie mit Pandas Daten, denen der Wert nan nicht fehlt
[Linux] Wie Sie Ihre IP in eine Variable einfügen
schaffen es, schwere Pyls in vim-lsp loszuwerden
So erhalten Sie RGB- und HSV-Histogramme mit OpenCV
Verwenden Sie Pandas, um nur die angegebenen Zeilen des Datenrahmens in die Excel-Datei zu schreiben
[Blender] So ermitteln Sie die Auswahlreihenfolge von Scheitelpunkten, Seiten und Flächen eines Objekts
Aufteilen von Trainingsdaten für maschinelles Lernen in objektive Variablen und andere in Pandas
Wie stark ist dein Qiita? Statistiken über die Anzahl der in den Daten angezeigten Beiträge
[Go language] So erhalten Sie Terminaleingaben in Echtzeit
[Einführung in cx_Oracle] Übersicht über cx_Oracle
So tauschen Sie Elemente in einem Array in Python aus und wie kehren Sie ein Array um.