[PYTHON] Visualisierung von Daten anhand einer erklärenden Variablen und einer objektiven Variablen

Einführung

Wenn Sie maschinelles Lernen wie die Konkurrenz von kaggle durchführen, müssen Sie zunächst die Daten visualisieren. Und ich denke, dass Seaborn oft zur Datenvisualisierung verwendet wird. Aber fragen Sie sich jemals, welches Sie verwenden sollen, da es verschiedene Arten von Diagrammen gibt? (Ich habe) Es gibt viele Erklärungen, dass "mit welcher Methode ein solches Diagramm gezeichnet werden kann", aber ich denke, dass es nur wenige Erklärungen gibt, dass "unter welchen Umständen dieses Diagramm gut ist". Daher habe ich hier zusammengefasst, welche Methode des Meeresgeborenen für jede Art von erklärender Variable und objektiver Variable verwendet werden sollte.

Umgebung

python: 3.6.6 seaborn: 0.10.0

Erklärende Variable: Diskrete Menge (Kategorie) Zielvariable: Diskrete Menge

Erstens, wenn sowohl die erklärende Variable als auch die Zielvariable diskrete Größen (Kategorien) sind. Verwenden Sie das Diagramm für die Anzahl der Seegeborenen. Zeichnen Sie, wie viele Kategorien von Zielvariablen vorhanden sind. Übergeben Sie die erklärende Variable an das Argument x des Countplots und die Zielvariable an den Farbton. Die Daten sind titanisch.

import pandas as pd
import seaborn as sns

data=pd.read_csv("train.csv")
sns.countplot(x='Embarked', data=data, hue='Survived')

countplot.png Sie können auch x und Farbton umkehren (was ist Geschmackssache?).

sns.countplot(x='Survived', data=data, hue='Embarked')

countplot2.png

Erklärende Variable: kontinuierliche Menge Zielvariable: diskrete Menge

Als nächstes, wenn die erklärende Variable eine kontinuierliche Größe und die Zielvariable eine diskrete Größe ist. Zeichnen Sie die Verteilung der erklärenden Variablen für jede Kategorie objektiver Variablen mit dem Distroplot von Seaborn.

g=sns.FacetGrid(data=data, hue='Survived', size=5)
g.map(sns.distplot, 'Fare')
g.add_legend()

distplot.png Weitere Informationen zum Farbcodieren mit einer Methode ohne Farbton als Argument finden Sie im separaten Artikel (So codieren Sie eine Methode ohne Farbton als Argument in Seaborn. mr160 / items / 112477ae98990216dae4)).

Erklärungsvariable: diskrete Menge Zielvariable: kontinuierliche Menge

Als nächstes, wenn die erklärende Variable eine diskrete Größe ist und die Zielvariable eine kontinuierliche Größe ist. Zeichnen Sie die Verteilung der Zielvariablen für jede Kategorie erklärender Variablen mit dem Geigenplot von seaborn. Verwenden Sie für die Daten die [Hauspreise] von kaggle (https://www.kaggle.com/c/house-prices-advanced-regression-techniques).

train_data=pd.read_csv("train.csv")
sns.violinplot(x="MSZoning", y="SalePrice", data=train_data)

violinplot.png

Erklärungsvariable: kontinuierliche Menge Zielvariable: kontinuierliche Menge

Schließlich, wenn sowohl die erklärende Variable als auch die Zielvariable kontinuierliche Größen sind. Zeichnen Sie die Korrelation zwischen der erklärenden Variablen und der objektiven Variablen mit dem gemeinsamen Diagramm des Seegeborenen.

sns.jointplot(x="LotArea", y="SalePrice", data=train_data)

jointplot.png Dieses gemeinsame Diagramm ist hervorragend, da Sie die Korrelation zwischen zwei Variablen und deren Verteilung gleichzeitig sehen können.

Zusammenfassung

Das Obige ist in der folgenden Tabelle zusammengefasst. sns_summary.png

Bitte weisen Sie auf Fehler oder geeignetere Methoden hin.

Recommended Posts

Visualisierung von Daten anhand einer erklärenden Variablen und einer objektiven Variablen
Visualisierung von Daten nach Präfektur
Analyse von Finanzdaten durch Pandas und deren Visualisierung (2)
Analyse von Finanzdaten durch Pandas und deren Visualisierung (1)
Korrelationsvisualisierung der Merkmalsmenge und der Zielvariablen
Übersicht und Tipps von Seaborn mit statistischer Datenvisualisierung
[Neueste Methode] Visualisierung von Zeitreihendaten und Extraktion häufiger Muster mithilfe des Pan-Matrix-Profils
Klassifizieren Sie Daten nach der k-means-Methode
Datenvisualisierungsmethode mit Matplotlib (1)
Datenvisualisierungsmethode mit Matplotlib (2)
Negative / positive Beurteilung von Sätzen und Visualisierung von Gründen durch Transformer
Negative / positive Beurteilung von Sätzen durch BERT und Visualisierung von Gründen
Visualisierung der von numpy erstellten Matrix
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (5)
Automatische Erfassung von Genexpressionsdaten durch Python und R.
Java-Kompilierung und Ausführung von CLI verstanden
Fehler und Abschluss der Ausführung durch LINE [Python] benachrichtigen
Befehlsausführung ausgelöst durch Dateiaktualisierung (Python Edition)
pytube Ausführung und Fehler
Visualisierung von Daten anhand einer erklärenden Variablen und einer objektiven Variablen
[Road to Intermediate Python] Geben Sie die Ausführungsmethode dynamisch anhand des Variablennamens an
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (3)
Impressionen von Touch, einem von Python erstellten Datenvisualisierungstool
[Python] Implementierung der Nelder-Mead-Methode und Speichern von GIF-Bildern durch matplotlib
10 Auswahlen der Datenextraktion durch pandas.DataFrame.query
Animation von Geodaten durch Geopandas
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (4)
Aggregation und Visualisierung akkumulierter Zahlen
Vorverarbeitung von Wikipedia-Dump-Dateien und gemeinsame Nutzung großer Datenmengen mit MeCab
Implementierung und Experiment der konvexen Clustering-Methode
Visualisierung und Analyse von Stava Twitter-Datenstandortinformationen
Trennung von Design und Daten in matplotlib
Zusammenfassung der Verbindungsmethode nach DB von SQL Alchemy
Empfehlung von Altair! Datenvisualisierung mit Python
Visualisierung von CNN-Feature-Maps und -Filtern (Tensorflow 2.0)
Echtzeitvisualisierung von Thermografie AMG8833-Daten in Python
Niedrigrangige Approximation von Bildern durch HOSVD und HOOI
Berechnung der technischen Indikatoren durch TA-Lib und Pandas
Glättung von Zeitreihen und Wellenformdaten 3 Methoden (Glättung)
Emotionale Analyse umfangreicher Tweet-Daten durch NLTK
Datenbereinigung 3 Verwendung von OpenCV und Vorverarbeitung von Bilddaten
Visualisierung des Trainee-Rankings von Produce 101 Japan durch Scraping
[Wissenschaftlich-technische Berechnung mit Python] Plot, Visualisierung, Matplotlib von 2D-Daten, die aus einer Datei gelesen wurden
Daten Langling PDF über den Ausbruch der Influenza durch das Ministerium für Gesundheit, Arbeit und Soziales
[Python-Anfängermemo] Bedeutung und Methode zur Bestätigung des fehlenden NaN-Werts vor der Datenanalyse