[PYTHON] Die minimale Methode, die beim Aggregieren von Daten mit Pandas zu beachten ist

Machen Sie sich Notizen zu häufig verwendeten Elementen für die grundlegende Tabellierung und planen Sie, diese jederzeit zu aktualisieren

Vorbereitung

from sklearn import datasets
import pandas as pd
from collections import OrderedDict

iris = datasets.load_iris()

df = pd.concat([pd.DataFrame(iris.data,columns=iris.feature_names),pd.DataFrame(iris.target,columns=["species"])],axis=1)

スクリーンショット 2017-05-09 9.51.52.png

Ich bin froh, dass das aktuelle Update Pandas leichter zu sehen macht

Aggregat

describe

df.describe()

スクリーンショット 2017-12-22 14.42.57.png

Grundlegende Statistiken können ausgegeben werden

df["petal length (cm)"].describe()

スクリーンショット 2017-05-09 9.34.06.png

Kann nur mit Serie berechnet werden

value_counts

df["species"].value_counts()

スクリーンショット 2017-05-09 9.36.35.png

Kann gezählt werden

get_dummies

pd.get_dummies(df["species"]).ix[[0,1,2,50,51,52,100,101,102]]

スクリーンショット 2017-05-09 9.37.32.png

Es können sogenannte Dummy-Variablen erstellt werden (Zur einfachen Anzeige indiziert)

sort_values

df.sort_values("sepal length (cm)",ascending=False)

スクリーンショット 2017-05-09 9.38.41.png

df kann sortiert werden (aufsteigend gibt die aufsteigende / absteigende Reihenfolge an)

df.sort_values(["sepal length (cm)","sepal width (cm)"],ascending=False)

スクリーンショット 2017-05-09 9.55.50.png

Mehrere Angaben sind möglich (Priorität ist der Index der Argumentliste)

groupby

df_groupby = df.groupby("species",as_index=False)
df_groupby.mean()

スクリーンショット 2017-05-09 9.57.37.png

Da das groupby-Objekt wiederverwendet werden kann, ist es schneller, das groupby-Objekt in einer Variablen zu speichern, wenn Sie mehrere ähnliche Aggregationen anwenden möchten.

groupby.agg

df_groupby.agg({"sepal length (cm)": "mean",
                "sepal width (cm)": ["mean","count"],
                "petal length (cm)": ["max","min"],
                "petal width (cm)": ["sum","var","std"]})

スクリーンショット 2017-05-09 9.43.42.png

Eine individuelle Aggregation für jede Spalte ist durch Angabe im Wörterbuchformat möglich (Beachten Sie jedoch, dass mehrere Aggregationen für eine Spalte mehrspaltig sind).

Da dies keine bestimmte Reihenfolge hat, verwenden Sie OrderedDict, wenn Sie die Reihenfolge angeben möchten.

df_groupby.agg(OrderedDict((["sepal length (cm)", "mean"],
                            ["sepal width (cm)", ["mean","count"]],
                            ["petal length (cm)", ["max","min"]],
                            ["petal width (cm)", ["sum","var","std"]])))

スクリーンショット 2017-05-09 9.59.54.png

to_csv

df.to_csv("test.csv",index=False,encoding="utf8")
pd.read_csv("test.csv")

スクリーンショット 2017-05-09 9.50.51.png

Wenn index = False ist, ist der nächste Messwert einfach Manchmal kann es nur gelesen werden, wenn die Codierung angegeben ist (insbesondere Windows).

Visualisierung

Vorbereitung

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

% matplotlib inline ist ein magischer Befehl zur Visualisierung in Jupyter

Box Whisker

sns.boxplot(data=df, x="species", y="sepal length (cm)")

スクリーンショット 2017-12-22 14.50.52.png

pairplot sns.pairplot(data=df)

Unknown.png

sns.pairplot(data=df, hue="species")

Unknown.png

Kann auch nach Segmenten unterteilt werden

jointplot sns.jointplot(data=df, x="sepal length (cm)", y="sepal width (cm)", kind="kde")

Unknown.png

distplot sns.distplot(df["sepal length (cm)"], rug=True,)

Unknown.png

Recommended Posts

Die minimale Methode, die beim Aggregieren von Daten mit Pandas zu beachten ist
Eine Sammlung von Methoden, die beim Aggregieren von Daten mit Pandas verwendet werden
Der erste Schritt zur Protokollanalyse (Formatieren und Einfügen von Protokolldaten in Pandas)
Zugriff mit dem Cache beim Lesen von_json mit Pandas
Versuchen Sie, die in Firefox gespeicherten Anmeldedaten zu entschlüsseln
[Für Anfänger von Wettkampfprofis] Drei Eingabemethoden, die Sie beim Starten der Wettkampfprogrammierung mit Python beachten sollten
[Pandas] Wenn sich die Daten der ersten Zeile im Header von DataFrame befinden
Verschiedene Methoden zur Berechnung der Ähnlichkeit zwischen Daten mit Python
Einfallsreichtum beim speichersparenden Umgang mit Daten mit Pandas
Kombinieren Sie Listen zu einem DataFrame mit Pandas
Ich habe versucht, den in Pandas häufig verwendeten Code zusammenzufassen
Vorsichtsmaßnahmen beim Ändern der Unix-Zeit in Datetime-Typ in Pandas
Ändern Sie die Meldung, die beim Anmelden bei Raspberry Pi angezeigt wird
So erhalten Sie einen Überblick über Ihre Daten in Pandas
Data Science-Begleiter in Python, wie man Elemente in Pandas spezifiziert
Erfassen Sie das Betriebsprotokoll automatisch im Terminal, wenn Sie sich bei Linux anmelden
[Linux] Ich möchte das Datum wissen, an dem sich der Benutzer angemeldet hat
<Pandas> Umgang mit Zeitreihendaten in der Pivot-Tabelle
Was tun, wenn UnicodeDecodeError während read_csv in Pandas auftritt (pd.read_table ())
Was tun, wenn der Werttyp in Python nicht eindeutig ist?
Programmieren, um in der Welt zu kämpfen ~ 5-1
Programmierung, um in der Welt zu kämpfen ~ 5-5,5-6
Programmieren, um in der Welt zu kämpfen 5-3
Wie man nüchtern mit Pandas schreibt
Programmierung für den Kampf in der Welt - Kapitel 4
Im Python-Befehl zeigt Python auf Python3.8
Überprüfen Sie die Datenzusammenfassung in CASTable
Probieren Sie Cython in kürzester Zeit aus
Wenn der Knoten in rqt_graph verschwindet
Programmieren, um in der Welt zu kämpfen ~ 5-2
Ich habe versucht, die Methoden zusammenzufassen, die häufig bei der grundlegenden Algo-Implementierung in Quantx Factory verwendet werden
Was tun, wenn das über Scrapy heruntergeladene Ergebnis auf Englisch ist?
So blenden Sie die Eingabeaufforderung aus, wenn Sie Python in Visual Studio 2015 ausführen
Ändern Sie nicht die Reihenfolge der Spalten, wenn Sie Pandas-Datenrahmen verketten.
Ich habe 6 Methoden gemessen, um den Index des Maximalwerts (Minimalwerts) der Liste zu erhalten
Was tun, wenn in der Anaconda-Umgebung die Warnung "Die Umgebung ist konsistent ..." angezeigt wird
Verhalten bei der Rückkehr in den with-Block
Zusammenfassung der häufig verwendeten Methoden bei Pandas
10 Methoden zur Verbesserung der Genauigkeit von BERT
Holen Sie sich die besten n-ten Werte in Pandas
Vorsichtsmaßnahmen bei Verwendung der for-Anweisung in Pandas
Konvertieren Sie Rasterdaten mithilfe von Pandas in zeilenhaltige (?) Daten
Mindestkenntnisse zur Verwendung von Form with Flask
So weisen Sie den Index im Pandas-Datenrahmen neu zu
[Pandas] Erweitern Sie die Zeichenfolgen zu DataFrame
Wenn das Ziel Ubuntu 16.04 in Ansible ist
[Python] Pandas in 10 Minuten vollständig zu verstehen
Versuchen Sie, mit Pandas in ordentliche Daten umzuwandeln
RDS-Daten über die Schrittplattform werden an Pandas gesendet
Verschiedene Kommentare im Programm zu schreiben
Wenn das vorherige Diagramm in Seaborn verbleibt
Lesen von CSV-Dateien mit Pandas
Hinzufügen von Serien zur Spalte in Python-Pandas
Behandeln Sie 3D-Datenstrukturen mit Pandas
Gibt es NaN im Pandas DataFrame?
Bücher über Datenwissenschaft, die 2020 gelesen werden sollen
[pandas] Wenn Sie die Standardindexbezeichnung in der at-Methode angeben, ist "" nicht erforderlich
[Python] Vorsichtsmaßnahmen beim Erfassen von Daten durch Scraping und Einfügen in die Liste
Bei der Konvertierung von CSV in JSON mit Python bin ich auf einen Zeichencode gestoßen