Machen Sie sich Notizen zu häufig verwendeten Elementen für die grundlegende Tabellierung und planen Sie, diese jederzeit zu aktualisieren
from sklearn import datasets
import pandas as pd
from collections import OrderedDict
iris = datasets.load_iris()
df = pd.concat([pd.DataFrame(iris.data,columns=iris.feature_names),pd.DataFrame(iris.target,columns=["species"])],axis=1)
Ich bin froh, dass das aktuelle Update Pandas leichter zu sehen macht
describe
df.describe()
Grundlegende Statistiken können ausgegeben werden
df["petal length (cm)"].describe()
Kann nur mit Serie berechnet werden
value_counts
df["species"].value_counts()
Kann gezählt werden
get_dummies
pd.get_dummies(df["species"]).ix[[0,1,2,50,51,52,100,101,102]]
Es können sogenannte Dummy-Variablen erstellt werden (Zur einfachen Anzeige indiziert)
sort_values
df.sort_values("sepal length (cm)",ascending=False)
df kann sortiert werden (aufsteigend gibt die aufsteigende / absteigende Reihenfolge an)
df.sort_values(["sepal length (cm)","sepal width (cm)"],ascending=False)
Mehrere Angaben sind möglich (Priorität ist der Index der Argumentliste)
groupby
df_groupby = df.groupby("species",as_index=False)
df_groupby.mean()
Da das groupby-Objekt wiederverwendet werden kann, ist es schneller, das groupby-Objekt in einer Variablen zu speichern, wenn Sie mehrere ähnliche Aggregationen anwenden möchten.
groupby.agg
df_groupby.agg({"sepal length (cm)": "mean",
"sepal width (cm)": ["mean","count"],
"petal length (cm)": ["max","min"],
"petal width (cm)": ["sum","var","std"]})
Eine individuelle Aggregation für jede Spalte ist durch Angabe im Wörterbuchformat möglich (Beachten Sie jedoch, dass mehrere Aggregationen für eine Spalte mehrspaltig sind).
Da dies keine bestimmte Reihenfolge hat, verwenden Sie OrderedDict, wenn Sie die Reihenfolge angeben möchten.
df_groupby.agg(OrderedDict((["sepal length (cm)", "mean"],
["sepal width (cm)", ["mean","count"]],
["petal length (cm)", ["max","min"]],
["petal width (cm)", ["sum","var","std"]])))
to_csv
df.to_csv("test.csv",index=False,encoding="utf8")
pd.read_csv("test.csv")
Wenn index = False ist, ist der nächste Messwert einfach Manchmal kann es nur gelesen werden, wenn die Codierung angegeben ist (insbesondere Windows).
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
% matplotlib inline ist ein magischer Befehl zur Visualisierung in Jupyter
sns.boxplot(data=df, x="species", y="sepal length (cm)")
pairplot
sns.pairplot(data=df)
sns.pairplot(data=df, hue="species")
Kann auch nach Segmenten unterteilt werden
jointplot
sns.jointplot(data=df, x="sepal length (cm)", y="sepal width (cm)", kind="kde")
distplot
sns.distplot(df["sepal length (cm)"], rug=True,)
Recommended Posts