[PYTHON] Visualisez les statistiques récapitulatives

Une vue d'ensemble de l'ensemble des données

Comment obtenir une vue d'ensemble de l'ensemble face à des quantités simples et importantes de données, telles que des données de journal volumineuses?

Tout d'abord, considérez ce qui suit.

  1. Conversion d'échelle (y compris l'anonymisation et la normalisation)
  2. Rechercher des statistiques récapitulatives
  3. En supposant la distribution et les tests

Conversion d'échelle

Le niveau d'échelle a été expliqué dans Comprendre les types de données et le début de la régression linéaire.

Par exemple, même si vous prenez du temps, qui est l'un des types de données continues, vous pouvez visualiser la transition avec le temps en définissant un intervalle et en obtenant une valeur, par exemple toutes les minutes ou toutes les heures. À ce stade, une conversion de niveau d'échelle est requise. De plus, l'anonymisation est effectuée par conversion en une valeur numérique sans unité (nombre anonyme) afin de faciliter la comparaison des valeurs de différents critères tels que le ratio et le ratio. La normalisation est la transformation et le traitement des données selon certaines règles. Par exemple, en réduisant la variance à une valeur avec 1 moyenne égale à 0, il est possible de comparer des valeurs numériques sur différents axes.

Statistiques récapitulatives

Les statistiques récapitulatives sont expliquées dans Statistics and Interval Estimates. Les moyennes et les variances sont des statistiques typiques, mais par exemple, en quantifiant la valeur au milieu des données et la façon dont elle est dispersée, il est possible de résumer une grande quantité de données et d'obtenir une vue d'ensemble. ..

Par exemple, Si vous regardez le rapport sur les titres, vous pouvez voir le revenu annuel moyen de chaque entreprise du secteur informatique. Cependant, en réalité, s'il n'y a pas de statistiques récapitulatives telles que la variance et la médiane ainsi que le revenu annuel moyen, il en va de même, qu'il s'agisse de la moyenne avec une énorme différence entre le haut et le bas, ou si seules certaines personnes ont un revenu annuel élevé. Je ne sais pas si c'est le montant d'argent. De cette façon, même si les statistiques récapitulatives sont scan all, [échantillonnage de la population pour obtenir des statistiques](http: / /qiita.com/ynakayama/items/4362c439d9ea814cbe60) C'est également une information indispensable pour Vérifier l'adéquation de la distribution des données cibles.

Test d'hypothèse et distribution de probabilité a expliqué comment obtenir des statistiques de base. Cependant, je pense que la situation actuelle est qu'il est difficile pour le grand public de présenter des statistiques sommaires dans l'analyse des données. Une méthode de visualisation utile est "Box Whiskers" est.

Génération de moustaches de boîte

Tout d'abord, générons des nombres aléatoires selon la distribution de Poisson et trouvons les statistiques. Comme la procédure a été expliquée jusqu'à présent, une explication détaillée est omise.

import numpy as np
import pandas as pd

s1 = pd.Series(np.random.poisson(5, 10000))
s1.describe()
#=>
# count    10000.000000
# mean         5.026600
# std          2.211421
# min          0.000000
# 25%          3.000000
# 50%          5.000000
# 75%          6.000000
# max         14.000000
#dtype: float64

s2 = pd.Series(np.random.poisson(5, 10000))
s3 = pd.Series(np.random.poisson(5, 10000))

La "boîte" dans le diagramme des moustaches de la boîte contient la moitié des données totales (25% à 75%). Ces données peuvent être considérées comme "un ensemble de données représentant le groupe" car elles forment une couche intermédiaire dans le groupe. Et si vous dites «lister une des données les plus courantes» dans la case, c'est la «valeur médiane» qui représente toutes les données.

Nous avons maintenant généré trois vecteurs avec une moyenne de 5 et un espace de dimension de 10000. Vous pouvez tracer cela en utilisant la fonction boxplot.

import matplotlib.pyplot as plt
ax.boxplot([s1, s2, s3])

xticks = ['A', 'B', 'C', ]
plt.xticks([1, 2, 3], xticks)
plt.grid()
plt.ylabel('Length')
plt.xlabel('type')
plt.show()
plt.savefig("image.png ")

image.png

De cette façon, nous avons une boîte de moustaches avec une valeur médiane de près de 5.

Par souci de clarté, je superposerai le diagramme de dispersion avec le tracé.

#Obtenez une matrice zéro avec tous les composants zéro de la même longueur que s1
s0 = pd.Series([0] * len(s1))
ax.plot([s0, s1, s2, s3], marker='.', linestyle='None', )

image.png

Résumé

Nous avons constaté que les statistiques récapitulatives peuvent être utilisées pour obtenir une vue d'ensemble de l'ensemble des données, et que des moustaches peuvent être utilisées pour les visualiser.

Recommended Posts

Visualisez les statistiques récapitulatives
Résumé Python
Résumé de Django
Résumé de python-pptx
Résumé Linux
Résumé Python
résumé pyenv
résumé pytest
Résumé matplotlib