[PYTHON] Leicht verständliche [Pandas] -Praxis / Datenbestätigungsmethode für Abiturienten

** Zusammenfassung der Datenbestätigungsmethode mit Pandas **

Ich möchte einen kurzen Blick darauf werfen

Überprüfen Sie die Form der Daten

Datenform(Anzahl der Zeilen x Anzahl der Spalten).


print(〇〇.shape)

Überprüfen Sie die Spalte (Spaltenname)

print(〇〇.columns)

Nur die ersten 5 Zeilen anzeigen

Wenn Sie 5 Zeilen anzeigen möchten.


print(〇〇.head())

Geben Sie die angegebene Anzahl von Zeilen, falls Sie sie sehen möchten, in die Klammern von head () ein.

Wenn Sie 10 Zeilen anzeigen möchten.


print(〇〇.head(10))

Kaggles ** Titanic: Maschinelles Lernen aus Katastrophen ** mit train_data image.png

Ich möchte im Detail sehen (überprüfen Sie die Anzahl der Zeilen, Spalten, Elemente, Typ, Speicher)

Verwenden Sie info () für weitere Details

Informationen bekommen.


print(〇〇.info())

image.png RangeIndex: (range) ist 891, während Age, Cabin, Embarked nur wenige sind und Sie sehen, dass ** Daten fehlen **.

Ich möchte beschreibende Statistiken kennen (Überprüfung der Tendenz und Eigenschaften von Daten)

Was ist beschreibende Statistik? : Eine der statistischen Methoden, die den Mittelwert, die Varianz, die Standardabweichung usw. der gesammelten Daten berechnet, um die Verteilung zu verdeutlichen, und die Tendenz und Eigenschaften der Daten erfasst.

Verwenden Sie description () für beschreibende Statistiken von Daten Der NaN-Wert wird berechnet, wenn er entfernt wird, und die Zeichenfolge ist in diesem Fall nicht enthalten.

Berechnung deskriptiver Statistiken(Andere als Zeichenketten).


print(〇〇.describe())

Numerische deskriptive Statistiken werden in der folgenden Form ausgedrückt ** Anzahl Anzahl der Daten ** ** gemittelter Durchschnitt ** ** Standardabweichung ** ** Mindestwert ** ** 25% Anzahl der 14. Teile ** ** 50% Anzahl der 4. Standorte (Median) ** ** 75% Anzahl der 3. und 4. Teile ** ** Maximaler Maximalwert ** image.png

Kategorie beschreibende Statistiken count ** eindeutig Anzahl der eindeutigen Daten ** ** höchster häufigster Wert ** ** Anzahl der Freq-Tops **

Beschreibende Zeitstempelstatistik count unique top freq ** erster 1. vergangener Wert ** ** letzter letzter Wert **

Übrigens können Sie auch Zeichenketten statistisch beschreiben

Berechnung deskriptiver Statistiken(Nur Zeichenfolge).


print(〇〇.describe(include=['O'])) #Großbuchstabe O: Die Zahl ist nicht Null!
print(〇〇.describe(include=['object'])) #Geben Sie für Kleinbuchstaben das Objekt richtig ein

Was ist die Form der beschreibenden Statistik für Zeichenketten? count unique top freq image.png

Es ist auch möglich, alle beschreibenden Statistiken mit (include = 'all') auszugeben.

Berechnung deskriptiver Statistiken(Alles).


〇〇.describe(include='all')

image.png