[PYTHON] Visualisierungsnotiz von Pandas, Seaborn

Datensatzvisualisierung

Ein Memo beim Üben der Visualisierung mit Pandas und Seegeborenen unter Verwendung von "iris.csv" als Beispieldatensatz. Da es ein Memo für mich ist, denke ich, dass es beliebige Teile gibt, wie die Art der Figur und wie man Spalten auswählt, aber bitte verstehe _ (._.) _

Daten: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv

Zeichnen eines Histogramms

iris.csv hat 4 Spalten und 1 Kategoriewert Es besteht aus "sepal_length", "sepal_width", "petal_length", "peta_width" und "species". Visualisieren Sie unter Berücksichtigung der Klassifizierung des Kategoriewerts "Art".

qiita_iris.jpg


Überprüfen Sie zunächst die Verteilung einer Spalte.

・ Verteilung von sepal_length

hist_iris1.py


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

sns.distplot(df.sepal_length,kde = True)
plt.show()

qiita_1.png


Als nächstes wurde die Verteilung der vier Spalten in vier separaten Graphen gezeichnet. Ich dachte, es wäre bequem, "layout = (2,2)" mit der "plot ()" - Methode von "DataFrame" anzugeben und 4 Diagramme in einem Layout von 2 * 2 Quadraten, aber mit einem Histogramm auszugeben Ich weiß nicht, wie ich die Dichtefunktion gleichzeitig durch Schätzung der Kerneldichte anzeigen soll.

・ Verteilung von sepal_length, sepal_width, petal_length, peta_width

hist_iris2.py


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

df.plot(kind="kde",subplots=True,layout=(2,2))    #kind="hist"Im Histogramm
plt.show()

qiita_4.png


・ Verteilung von sepal_length nach Kategorien

Überprüfen Sie, wie sich die Verteilung von "sepal_length" zwischen "setosa" und "versicolor" unterscheidet.

hist_iris.py


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()

qiita_2.png


Zeichnen einer Streudiagrammmatrix

Die Streumatrix ist eine nützliche Visualisierungsmethode (glaube ich) für einen Überblick über die Daten. In Seaborn können Sie einfach mit "pairplot ()" zeichnen. Im folgenden Beispiel wird "hue =" species "" als Argument für "pairplot ()" festgelegt. Dadurch wird jeder Typ des Kategoriewerts "Spezies" im Iris-Datensatz farblich gekennzeichnet. Wenn diag_kind =" kde " gesetzt ist, wird eine Dichtefunktion basierend auf der Kernel-Dichteschätzung für die diagonale Komponente gezeichnet. Wenn nichts angegeben ist, wird das Histogramm einfach angezeigt.

・ Verteilung von sepal_length nach Kategorien

hist_iris.py


import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris zur Hand.Ohne CSV

#pairplot:Zeichnen Sie eine Streudiagrammmatrix
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()

qiita_3.png

Recommended Posts

Visualisierungsnotiz von Pandas, Seaborn
Visualisierungsnotiz von Python
Pandas Memo
Pandas Memo
Nach Pandas sortieren
100 Sprachverarbeitung Knock-99 (mit Pandas): Visualisierung durch t-SNE
Pandas Reverse Memo
Datenvisualisierung mit Pandas
Analyse von Finanzdaten durch Pandas und deren Visualisierung (1)
pandas Matplotlib Zusammenfassung nach Verwendung
Memorandum (Pseudo-Vlookup von Pandas)
Visualisierung von Daten nach Präfektur
Standardisieren Sie nach Gruppen mit Pandas
Visualisierung der von numpy erstellten Matrix
[Python] Operationsnotiz von Pandas DataFrame
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (5)
Pandas Memo ~ Keine, np.nan, über leere Zeichen ~
[Memo] Kleine Geschichte von Pandas, numpy
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (3)
Bearbeiten von Strings mit Pandas gruppieren nach
Abschnittsplanung Lernnotiz ~ von Python ~
Visualisieren Sie Ihre Daten ganz einfach mit Python Seaborn.
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (4)
Feature-Generierung mit Pandas gruppieren nach
Stellen Sie das Verhältnis von Topcoder, Codeforces und TOEIC nach Bewertung grafisch dar (Pandas + Seaborn).