Wenn Sie maschinelles Lernen wie die Konkurrenz von kaggle durchführen, müssen Sie zunächst die Daten visualisieren. Und ich denke, dass Seaborn oft zur Datenvisualisierung verwendet wird. Aber fragen Sie sich jemals, welches Sie verwenden sollen, da es verschiedene Arten von Diagrammen gibt? (Ich habe) Es gibt viele Erklärungen, dass "mit welcher Methode ein solches Diagramm gezeichnet werden kann", aber ich denke, dass es nur wenige Erklärungen gibt, dass "unter welchen Umständen dieses Diagramm gut ist". Daher habe ich hier zusammengefasst, welche Methode des Meeresgeborenen für jede Art von erklärender Variable und objektiver Variable verwendet werden sollte.
python: 3.6.6 seaborn: 0.10.0
Erstens, wenn sowohl die erklärende Variable als auch die Zielvariable diskrete Größen (Kategorien) sind. Verwenden Sie das Diagramm für die Anzahl der Seegeborenen. Zeichnen Sie, wie viele Kategorien von Zielvariablen vorhanden sind. Übergeben Sie die erklärende Variable an das Argument x des Countplots und die Zielvariable an den Farbton. Die Daten sind titanisch.
import pandas as pd
import seaborn as sns
data=pd.read_csv("train.csv")
sns.countplot(x='Embarked', data=data, hue='Survived')
Sie können auch x und Farbton umkehren (was ist Geschmackssache?).
sns.countplot(x='Survived', data=data, hue='Embarked')
Als nächstes, wenn die erklärende Variable eine kontinuierliche Größe und die Zielvariable eine diskrete Größe ist. Zeichnen Sie die Verteilung der erklärenden Variablen für jede Kategorie objektiver Variablen mit dem Distroplot von Seaborn.
g=sns.FacetGrid(data=data, hue='Survived', size=5)
g.map(sns.distplot, 'Fare')
g.add_legend()
Weitere Informationen zum Farbcodieren mit einer Methode ohne Farbton als Argument finden Sie im separaten Artikel (So codieren Sie eine Methode ohne Farbton als Argument in Seaborn. mr160 / items / 112477ae98990216dae4)).
Als nächstes, wenn die erklärende Variable eine diskrete Größe ist und die Zielvariable eine kontinuierliche Größe ist. Zeichnen Sie die Verteilung der Zielvariablen für jede Kategorie erklärender Variablen mit dem Geigenplot von seaborn. Verwenden Sie für die Daten die [Hauspreise] von kaggle (https://www.kaggle.com/c/house-prices-advanced-regression-techniques).
train_data=pd.read_csv("train.csv")
sns.violinplot(x="MSZoning", y="SalePrice", data=train_data)
Schließlich, wenn sowohl die erklärende Variable als auch die Zielvariable kontinuierliche Größen sind. Zeichnen Sie die Korrelation zwischen der erklärenden Variablen und der objektiven Variablen mit dem gemeinsamen Diagramm des Seegeborenen.
sns.jointplot(x="LotArea", y="SalePrice", data=train_data)
Dieses gemeinsame Diagramm ist hervorragend, da Sie die Korrelation zwischen zwei Variablen und deren Verteilung gleichzeitig sehen können.
Das Obige ist in der folgenden Tabelle zusammengefasst.
Bitte weisen Sie auf Fehler oder geeignetere Methoden hin.
Recommended Posts