[PYTHON] Comment visualiser les données par variable explicative et variable objective

introduction

Lorsque vous faites du machine learning comme la compétition de Kaggle, la première chose à faire est de visualiser les données. Et je pense que seaborn est souvent utilisé pour la visualisation de données. Mais vous êtes-vous déjà demandé lequel utiliser car il existe différents types de graphiques? (J'ai) Il y a beaucoup d'explications sur "quelle méthode peut être utilisée pour dessiner un tel graphe", mais je pense qu'il y a peu d'explications que "dans quelles circonstances ce graphe est bon". Par conséquent, j'ai résumé ici quelle méthode de seaborn devrait être utilisée pour chaque type de variable explicative et de variable objective.

environnement

python: 3.6.6 seaborn: 0.10.0

Variable explicative: quantité discrète (catégorie) Variable objective: quantité discrète

Premièrement, lorsque la variable explicative et la variable objective sont toutes deux des quantités discrètes (catégories). Utilisez un graphique de dénombrement marin. Dessinez le nombre de chaque catégorie de variables objectives. Passez la variable explicative à l'argument x de countplot et la variable objective à hue. Les données sont titanesques.

import pandas as pd
import seaborn as sns

data=pd.read_csv("train.csv")
sns.countplot(x='Embarked', data=data, hue='Survived')

countplot.png Vous pouvez également inverser x et teinte (ce qui est une question de goût?).

sns.countplot(x='Survived', data=data, hue='Embarked')

countplot2.png

Variable explicative: quantité continue Variable objective: quantité discrète

Ensuite, lorsque la variable explicative est une quantité continue et la variable objective est une quantité discrète. Dessinez la distribution des variables explicatives pour chaque catégorie de variables objectives avec le diagramme de répartition de Seaborn.

g=sns.FacetGrid(data=data, hue='Survived', size=5)
g.map(sns.distplot, 'Fare')
g.add_legend()

distplot.png Veuillez vous référer à l'article séparé pour savoir comment coder par couleur avec une méthode qui n'a pas de teinte comme argument (Comment coder par couleur une méthode qui n'a pas de teinte comme argument dans Seaborn. mr160 / items / 112477ae98990216dae4)).

Variable explicative: quantité discrète Variable objective: quantité continue

Ensuite, lorsque la variable explicative est une quantité discrète et la variable objective est une quantité continue. Tracez la distribution de la variable objective pour chaque catégorie de variables explicatives avec le graphique du violon de Seaborn. Utilisez les [House Prices] de kaggle (https://www.kaggle.com/c/house-prices-advanced-regression-techniques) pour les données.

train_data=pd.read_csv("train.csv")
sns.violinplot(x="MSZoning", y="SalePrice", data=train_data)

violinplot.png

Variable explicative: montant continu Variable objective: montant continu

Enfin, lorsque la variable explicative et la variable objective sont des quantités continues. Dessinez la corrélation entre la variable explicative et la variable objective avec le graphique conjoint de Seaborn.

sns.jointplot(x="LotArea", y="SalePrice", data=train_data)

jointplot.png Ce graphique conjoint est excellent car vous pouvez voir la corrélation entre deux variables et la distribution de chacune en même temps.

Résumé

Ce qui précède est résumé dans le tableau ci-dessous. sns_summary.png

Veuillez signaler toute erreur ou méthode plus appropriée.

Recommended Posts

Comment visualiser les données par variable explicative et variable objective
Visualisation des données par préfecture
Analyse des données financières par pandas et leur visualisation (2)
Analyse des données financières par pandas et leur visualisation (1)
Visualisation de corrélation entre la quantité de caractéristiques et la variable objective
Vue d'ensemble et astuces de Seaborn avec visualisation de données statistiques
[Dernière méthode] Visualisation des données de séries chronologiques et extraction de modèles fréquents à l'aide du profil Pan-Matrix
Classer les données par la méthode k-means
Méthode de visualisation de données utilisant matplotlib (1)
Méthode de visualisation de données utilisant matplotlib (2)
Jugement négatif / positif des phrases et visualisation des motifs par Transformer
Jugement négatif / positif des phrases par BERT et visualisation des motifs
Visualisation de la matrice créée par numpy
Méthode de visualisation de données utilisant matplotlib (+ pandas) (5)
Acquisition automatique des données de niveau d'expression génique par python et R
Compilation et exécution Java comprises par CLI
Notifier l'erreur et la fin de l'exécution par LINE [Python]
Exécution de la commande déclenchée par la mise à jour du fichier (édition python)
exécution et erreur de pytube
Comment visualiser les données par variable explicative et variable objective
[Route vers Python intermédiaire] Spécifiez dynamiquement la méthode d'exécution par nom de variable
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)
Méthode de visualisation de données utilisant matplotlib (+ pandas) (3)
Impressions de toucher Dash, un outil de visualisation de données réalisé par python
[Python] Implémentation de la méthode Nelder – Mead et sauvegarde des images GIF par matplotlib
10 sélections d'extraction de données par pandas.DataFrame.query
Animation des géodonnées par geopandas
Méthode de visualisation de données utilisant matplotlib (+ pandas) (4)
Agrégation et visualisation des nombres accumulés
Prétraitement des fichiers de vidage Wikipedia et partage de grandes quantités de données avec MeCab
Mise en œuvre et expérience de la méthode de clustering convexe
Visualisation et analyse des informations de localisation des données Twitter Stava
Séparation de la conception et des données dans matplotlib
Résumé de la méthode de connexion par DB de SQL Alchemy
Recommandation d'Altair! Visualisation des données avec Python
Visualisation des cartes et des filtres des fonctionnalités CNN (Tensorflow 2.0)
Visualisation en temps réel des données thermographiques AMG8833 en Python
Approximation de bas rang des images par HOSVD et HOOI
Calcul des indicateurs techniques par TA-Lib et pandas
Lissage des séries temporelles et des données de forme d'onde 3 méthodes (lissage)
Analyse émotionnelle des données de tweet à grande échelle par NLTK
Nettoyage des données 3 Utilisation d'OpenCV et prétraitement des données d'image
Visualisation du classement des stagiaires de Produce 101 Japan par grattage
[Calcul scientifique / technique par Python] Tracé, visualisation, matplotlib de données 2D lues à partir d'un fichier
Data Langling PDF sur l'épidémie de grippe par le ministère de la Santé, du Travail et du Bien-être social
[Mémo du débutant Python] Importance et méthode de confirmation de la valeur manquante NaN avant l'analyse des données