[PYTHON] Méthode de confirmation de la pratique / des données [Pandas] facile à comprendre pour les diplômés du secondaire

** Résumé de la méthode de confirmation des données utilisant des pandas **

Je veux jeter un coup d'oeil

Vérifiez la forme des données

Forme des données(Nombre de lignes x nombre de colonnes).


print(〇〇.shape)

Vérifiez la colonne (nom de la colonne)

print(〇〇.columns)

Afficher uniquement les 5 premières lignes

Si vous souhaitez afficher 5 lignes.


print(〇〇.head())

Entrez le nombre de lignes spécifié, si vous voulez le voir, entre parenthèses de head ()

Si vous souhaitez afficher 10 lignes.


print(〇〇.head(10))

Kaggle's ** Titanic: Machine Learning from Disasters ** avec train_data image.png

Je veux voir en détail (vérifier le nombre de lignes, colonnes, éléments, type, mémoire)

Utilisez info () pour plus de détails

Obtenir des informations.


print(〇〇.info())

image.png RangeIndex: (range) est 891, alors que Age, Cabin, Embarked sont peu nombreux, et vous pouvez voir que ** les données sont manquantes **.

Je souhaite connaître les statistiques descriptives (vérifier les tendances et les propriétés des données)

Qu'est-ce que les statistiques descriptives? : Une des méthodes statistiques, qui calcule la moyenne, la variance, l'écart type, etc. des données collectées pour clarifier la distribution, et saisit la tendance et les propriétés des données.

Utilisez describe () pour les statistiques descriptives des données La valeur NaN est calculée en excluant, la chaîne n'est pas incluse dans ce cas

Calcul de statistiques descriptives(Autre que les chaînes de caractères).


print(〇〇.describe())

Les statistiques descriptives numériques sont exprimées sous la forme suivante ** count Nombre de données ** ** moyenne moyenne ** ** écart-type std ** ** valeur minimale minimale ** ** 25% Nombre de 14e pièces ** ** 50% Nombre de 4e site (médiane) ** ** 75% Nombre de 3e et 4e parties ** ** valeur maximale maximale ** image.png

Statistiques descriptives de la catégorie count ** unique Nombre de données uniques ** ** valeur la plus fréquente supérieure ** ** Nombre de tops de fréquence **

Statistiques descriptives d'horodatage count unique top freq ** première 1ère valeur passée ** ** dernière valeur la plus récente **

En passant, vous pouvez également faire une description statistique des chaînes de caractères

Calcul de statistiques descriptives(Chaîne de caractères uniquement).


print(〇〇.describe(include=['O'])) #Capital O: Le nombre n'est pas zéro!
print(〇〇.describe(include=['object'])) #Pour les lettres minuscules, saisissez correctement l'objet

La forme des statistiques descriptives pour les chaînes de caractères count unique top freq image.png

Il est également possible de sortir toutes les statistiques descriptives avec (include = 'all')

Calcul de statistiques descriptives(Tout).


〇〇.describe(include='all')

image.png