Tout d'abord, jetons un coup d'œil à l'utilité de Pandas et Numpy.
Par conséquent, on peut dire que Pandas et Numpy sont souvent combinés étape par étape et utilisés dans la série de flux suivante, par exemple.
data = [12, 3, 5, 2, 6, 7, 9, 6, 4, 11]
J'ai créé une liste standard Python en écrivant les valeurs directement dans variable name = []
, séparées par des virgules.
Ci-dessous, nous allons calculer diverses statistiques à l'aide de Numpy.
np.mean(data)
La fonction «moyenne» de Numpy a calculé une moyenne de 6,5.
np.median(data)
La fonction «médiane» de Numpy a calculé une médiane de 6,0. Lorsque les données sont triées par ordre de taille, la valeur située exactement au centre est également appelée médiane. S'il est égal au deuxième quadrant et qu'il y a plusieurs données, ce sera la moyenne de deux valeurs proches du centre.
np.sum(data)
La fonction sum
de Numpy a calculé une valeur totale de 65.
np.std(data)
La fonction std
de Numpy a donné le résultat 3.138470965295043.
Cependant, il s'agit de la valeur de ** l'écart-type de la population **.
Veuillez noter qu'il existe deux types d'écarts types, l'écart-type de la population et le ** écart-type non biaisé **.
L'ensemble du sujet de recherche ou de recherche est appelé la ** population **, et la partie extraite de la population est appelée ** échantillon **. Les enquêtes qui examinent l'ensemble de la population sont appelées ** enquêtes à 100% ** ou ** enquêtes tous azimuts **. Des exemples typiques sont l '«enquête nationale», à laquelle toutes les personnes résidant au Japon doivent répondre, et l' «enquête statistique sur les établissements / entreprises», que l'on peut appeler le recensement national des établissements commerciaux. Probablement. En d'autres termes, presque toutes les données traitées dans le monde réel peuvent être considérées comme des échantillons d'enquêtes par sondage. Cependant, je ne veux pas du tout connaître les caractéristiques et les tendances des spécimens, et j'essaie toujours d'estimer les caractéristiques et les tendances de la population en ciblant les spécimens. Maintenant, deux statistiques sont nécessaires pour calculer l'écart type. Tout d'abord, la valeur moyenne est calculée, la variance est calculée à l'aide de celle-ci et la racine carrée de la variance est considérée comme l'écart type. La moyenne, la variance et l'écart type calculés à partir de l'échantillon sont préfixés respectivement par "échantillon" ou "sans biais" et ** moyenne de l'échantillon $ \ bar {X} $ **, ** variance sans biais $ s ^ 2 Ils sont appelés $ ** et ** écart-type non biaisé $ s $ **. Par contre, la moyenne, la variance et l'écart type de la population estimés à partir de l'échantillon sont ** moyenne de la population $ μ $ **, ** variance de la population $ σ ^ 2 $ **, ** écart type de la population $ σ. Nous l'appelons $ ** pour le distinguer.
Par conséquent, lorsque vous utilisez Numpy pour calculer l'écart-type non biaisé, procédez comme suit.
np.std(data, ddof=1)
Comparons-le avec l'écart type calculé à l'aide de Pandas plus tôt.
df = pd.DataFrame(data) #Convertir les données en trame de données Pandas
df.describe().loc['std']
L'écart type de Pandas est un écart type non biaisé.
Ensuite, calculons les statistiques de base à l'aide de statistiques, qui est une bibliothèque Python standard.