Datensatzvisualisierung

Ein Memo beim Üben der Visualisierung mit Pandas und Seegeborenen unter Verwendung von "iris.csv" als Beispieldatensatz. Da es ein Memo für mich ist, denke ich, dass es beliebige Teile gibt, wie die Art der Figur und wie man Spalten auswählt, aber bitte verstehe _ (._.) _

Daten: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv

Zeichnen eines Histogramms

iris.csv hat 4 Spalten und 1 Kategoriewert Es besteht aus "sepal_length", "sepal_width", "petal_length", "peta_width" und "species". Visualisieren Sie unter Berücksichtigung der Klassifizierung des Kategoriewerts "Art".

Überprüfen Sie zunächst die Verteilung einer Spalte.

・ Verteilung von `sepal_length`

`hist_iris1.py`


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

sns.distplot(df.sepal_length,kde = True)
plt.show()

Als nächstes wurde die Verteilung der vier Spalten in vier separaten Graphen gezeichnet. Ich dachte, es wäre bequem, "layout = (2,2)" mit der "plot ()" - Methode von "DataFrame" anzugeben und 4 Diagramme in einem Layout von 2 * 2 Quadraten, aber mit einem Histogramm auszugeben Ich weiß nicht, wie ich die Dichtefunktion gleichzeitig durch Schätzung der Kerneldichte anzeigen soll.

・ Verteilung von `sepal_length`, `sepal_width`, `petal_length`, `peta_width`

`hist_iris2.py`


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

df.plot(kind="kde",subplots=True,layout=(2,2))    #kind="hist"Im Histogramm
plt.show()

・ Verteilung von `sepal_length` nach Kategorien

Überprüfen Sie, wie sich die Verteilung von "sepal_length" zwischen "setosa" und "versicolor" unterscheidet.

`hist_iris.py`


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()

Zeichnen einer Streudiagrammmatrix

Die Streumatrix ist eine nützliche Visualisierungsmethode (glaube ich) für einen Überblick über die Daten. In Seaborn können Sie einfach mit "pairplot ()" zeichnen. Im folgenden Beispiel wird "hue =" species "" als Argument für "pairplot ()" festgelegt. Dadurch wird jeder Typ des Kategoriewerts "Spezies" im Iris-Datensatz farblich gekennzeichnet. Wenn diag_kind =" kde " gesetzt ist, wird eine Dichtefunktion basierend auf der Kernel-Dichteschätzung für die diagonale Komponente gezeichnet. Wenn nichts angegeben ist, wird das Histogramm einfach angezeigt.

・ Verteilung von `sepal_length` nach Kategorien

`hist_iris.py`


import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

#pairplot:Zeichnen Sie eine Streudiagrammmatrix
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()

[PYTHON] Visualisierungsnotiz von Pandas, Seaborn

Datensatzvisualisierung

Zeichnen eines Histogramms

・ Verteilung von sepal_length

hist_iris1.py

・ Verteilung von sepal_length, sepal_width, petal_length, peta_width

hist_iris2.py

・ Verteilung von sepal_length nach Kategorien

hist_iris.py

Zeichnen einer Streudiagrammmatrix

・ Verteilung von sepal_length nach Kategorien

hist_iris.py

・ Verteilung von `sepal_length`

`hist_iris1.py`

・ Verteilung von `sepal_length`, `sepal_width`, `petal_length`, `peta_width`

`hist_iris2.py`

・ Verteilung von `sepal_length` nach Kategorien

`hist_iris.py`

・ Verteilung von `sepal_length` nach Kategorien

`hist_iris.py`