[PYTHON] Visualisez en ajoutant "une morsure" au "diagramme barbe boîte" (boxen / essaim / violon)
Aperçu
- Ceci est un mémo de ce que j'ai pensé de la visualisation des données de kaggle's titanic.
- Je souhaite visualiser la répartition de «l'âge des passagers» pour chaque «port à bord».
- Dans de tels cas, il est courant d'utiliser des moustaches en boîte (boxplot dans seaborn).
- Par contre, ** d'autres ** moyens de visualisation peuvent être utilisés pour ajouter "une bouchée", alors je les ai résumés.
- Cette fois, comme alternative à boxplot de seaborn Je voudrais examiner les domaines suivants.
- boxenplot
- swarmplot
- violinplot
- J'espère que cela aide quelqu'un, mais ce n'est qu'un mémo de travail et une opinion personnelle.
motivation
Boîte à moustaches
- Au Titanic, l'âge des passagers à chaque port d'embarquement ressemble à ceci. (D'abord, barbe en boîte)
- Pour le moment, ce qui suit peut être lu.
- L'âge médian est d'environ 25 à 30 ans, quel que soit le port d'où vous embarquez.
- Il n'y a pas de grande différence entre la valeur médiane et les valeurs de première et troisième division. (Queenstown est un peu plus jeune?)
- Les valeurs aberrantes (données pour les personnes âgées) sont perceptibles pour les passagers embarquant depuis Southampton![Download.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/ 183826 / 6c03f3ea-bd76-a621-d64d-ecd52849062f.png)
Si vous essayez Swarmplot
- Si vous essayez d'en faire un Swarmplot, la valeur du quadrant sera difficile à voir, mais ce sera bien d'ajouter "un morceau".
- Vous pourrez connaître le ** nombre de données pour chaque série. (En fait, ** Queenstown est un petit nombre **)
- Facile à lire même pour ceux qui ** ne connaissent pas la signification des boîtes et des moustaches **
- Facile à lire ** parties denses et rares ** des données![Download.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/183826/ a56c0cee-8ac2-8617-c574-9d5d3b07f237.png)
Ajouter "un morceau" à la barbe de la boîte
Essayez de changer les fonctions et les options
Si vous faites etc., vous pouvez ajouter "une bouchée"
En résumé (cheet sheet)
- boxenplot n'a pas d'option de partage **
- Notez que la signification de ** option de partage ** est légèrement différente entre swarmplot et violinplot.
option |
boxenplot |
swarmplot |
violinplot |
Non précisé |
|
|
|
hue="Sex" |
|
|
|
hue="Sex" split=True |
Aucun |
|
|
"Quel" doit être utilisé "quand"?
- Difficile de dire "c'est pour ça!", Mais ...
- Si vous comparez chacun d'eux, vous pouvez voir les caractéristiques.
Boxplot vs boxenplot
- Il n'y a pas de différence car seules 2 lettres (en) sont modifiées par ordre alphabétique.
Voulez-vous afficher avec ** ** quadrant ** ou avec plus de ** quadrant plus fin **? Vous voulez connaître les ** valeurs aberrantes **? Est le point
|
Boîte à moustaches(boxplot) |
boxenplot |
afficher |
|
|
Fonctionnalité |
Trimestre, Maximum minimum Vous pouvez également voir la situation des valeurs aberrantes |
QueValeur de division finePeut être vu Difficile à voir comme une valeur aberrante |
Boxplot vs Swarmplot
- Comparé aux moustaches rectangulaires, parcelle d'essaim qui connaît les données individuelles et les capture ** en continu **
- Vous pouvez voir ** le nombre, la densité et la différence ** des données, mais le coût du tracé ** est élevé ** et il est difficile pour une grande quantité de données.
|
Boîte à moustaches(boxplot) |
swarmplot |
afficher |
|
|
Fonctionnalité |
section(Valeur de partition)Pour attraper comme terrainÀ bas prix |
Prise de conscience de l'individuEt capturer en permanence les données Les donnéesDifférences par nombre et sérieAussi compréhensible しかし、terrainCoût élevé |
swarmplot vs violinplot
- Comme Swarmplot, violinplot gère ** en continu ** les données et les parcelles ** coûte moins cher **
- Au lieu de cela, le nombre de données et la différence entre les séries ** passent inaperçus. ** **
|
swarmplot |
violinplot |
afficher |
|
|
Fonctionnalité |
Prise de conscience de l'individuEt capturer en permanence les données Les donnéesDifférences par nombre et sérieAussi compréhensible Mais intrigueCoût élevé |
Prise de conscience de l'individuせず、Les donnéesのJe ne vois pas le nombreMais, Compréhension continue des tendances générales terrainRéduisez les coûtsPeut faire des choses. |
Résumé
- Il y a des avantages et des inconvénients, et il faut le sélectionner en fonction de l'application, mais en résumé, est-ce comme suit?
Section vs continue |
Comment ajouter "Hitomi" |
Quelle méthode de visualisation dois-je choisir? |
Les données**section (Division)**Traité avec |
OutlierSi vous voulez être au courant |
Boîte à moustaches(boxplot) |
|
Du quadrantDétailléDans l'affichage, |
boxenplot |
Les donnéesEn continuManipuler, |
CetteNombre et densitéSi vous voulez montrer |
swarmplot |
|
Réduisez les coûts de parcelle Tendance généraleSi vous voulez montrer |
violinplot |