Ein Memo beim Üben der Visualisierung mit Pandas und Seegeborenen unter Verwendung von "iris.csv" als Beispieldatensatz. Da es ein Memo für mich ist, denke ich, dass es beliebige Teile gibt, wie die Art der Figur und wie man Spalten auswählt, aber bitte verstehe _ (._.) _
Daten: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
iris.csv
hat 4 Spalten und 1 Kategoriewert
Es besteht aus "sepal_length", "sepal_width", "petal_length", "peta_width" und "species".
Visualisieren Sie unter Berücksichtigung der Klassifizierung des Kategoriewerts "Art".
Überprüfen Sie zunächst die Verteilung einer Spalte.
sepal_length
hist_iris1.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris zur Hand.Ohne CSV
sns.distplot(df.sepal_length,kde = True)
plt.show()
Als nächstes wurde die Verteilung der vier Spalten in vier separaten Graphen gezeichnet. Ich dachte, es wäre bequem, "layout = (2,2)" mit der "plot ()" - Methode von "DataFrame" anzugeben und 4 Diagramme in einem Layout von 2 * 2 Quadraten, aber mit einem Histogramm auszugeben Ich weiß nicht, wie ich die Dichtefunktion gleichzeitig durch Schätzung der Kerneldichte anzeigen soll.
sepal_length
, sepal_width
, petal_length
, peta_width
hist_iris2.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris zur Hand.Ohne CSV
df.plot(kind="kde",subplots=True,layout=(2,2)) #kind="hist"Im Histogramm
plt.show()
sepal_length
nach KategorienÜberprüfen Sie, wie sich die Verteilung von "sepal_length" zwischen "setosa" und "versicolor" unterscheidet.
hist_iris.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris zur Hand.Ohne CSV
sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()
Die Streumatrix ist eine nützliche Visualisierungsmethode (glaube ich) für einen Überblick über die Daten. In Seaborn können Sie einfach mit "pairplot ()" zeichnen.
Im folgenden Beispiel wird "hue =" species "" als Argument für "pairplot ()" festgelegt. Dadurch wird jeder Typ des Kategoriewerts "Spezies" im Iris-Datensatz farblich gekennzeichnet. Wenn diag_kind =" kde "
gesetzt ist, wird eine Dichtefunktion basierend auf der Kernel-Dichteschätzung für die diagonale Komponente gezeichnet. Wenn nichts angegeben ist, wird das Histogramm einfach angezeigt.
sepal_length
nach Kategorienhist_iris.py
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris zur Hand.Ohne CSV
#pairplot:Zeichnen Sie eine Streudiagrammmatrix
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()
Recommended Posts