[PYTHON] Une collection de méthodes utilisées lors de l'agrégation de données avec des pandas

Lire le fichier CSV

data = pd.read_csv("sample.csv", encoding="UTF-8")
data

résultat

スクリーンショット 2017-07-28 22.27.31.png

Contenu de sample.csv

Inutile,Inutile,Inutile,Inutile,Inutile,Inutile
Inutile,Titre A,Titre B,Titre C,Titre D,Inutile
Inutile,10,20,30,40,Inutile
Inutile,100,200,300,400,Inutile
Inutile,Inutile,Inutile,Inutile,Inutile,Inutile

J'enregistre les données qui se trouvaient dans la feuille de calcul Google au format CSV et j'imagine les données lors de leur analyse. Je pense qu'il y a pas mal de feuilles où les mémos et remarques sont rédigés sans être structurés. Je pense que vous pouvez sélectionner la gamme lors de la sauvegarde, mais cette fois, je vais essayer de l'organiser avec des pandas après la pratique.

Remplacez le contenu de la ligne spécifiée par le nom de la colonne

data.columns = data.iloc[0]
data

résultat

スクリーンショット 2017-07-28 22.29.14.png

Extraire uniquement les lignes / colonnes spécifiées

data = data.iloc[1:3,1:5]
data

résultat

スクリーンショット 2017-07-28 22.33.12.png C'est juste ce que je veux.

Produire diverses statistiques récapitulatives (échec)

data.describe()

résultat

スクリーンショット 2017-07-28 22.34.37.png Je pensais que la moyenne, etc. sortirait, mais ce n'est pas le cas. C'est parce que le type de valeur n'est pas numérique.

Changer le type de valeur

data = data.astype('int')
data

résultat

スクリーンショット 2017-07-28 22.37.16.png

Produire diverses statistiques récapitulatives (succès)

data.describe()

résultat

スクリーンショット 2017-07-28 22.38.23.png

Obtenez le coefficient de corrélation

data.corr()

résultat

スクリーンショット 2017-07-28 22.39.15.png #### Remarques Je ne sais pas quel est le 0 en haut à gauche

Diverses autres choses

data.sum() #total
data.skew() #asymétrie
data.kurt() #kurtosis
data.var() #Distribué
data.cov() #Matrice de covariance

Remarques

Diagramme de barbe de boîte d'affichage

%matplotlib inline #Obligatoire pour afficher sur la page
data.plot(kind='box')

résultat

スクリーンショット 2017-07-28 22.44.26.png #### Remarques L'étiquette japonaise n'est pas affichée, mais le japonais est ``` matplotlib.rcParams['font.family'] = 'M+ 1c' #Police spécifiable ``` Il peut être affiché en spécifiant comme. Les polices qui peuvent être spécifiées sont ``` import matplotlib.font_manager as fm fm.findSystemFonts() ``` Vous pouvez le découvrir sur. http://qiita.com/hagino3000/items/1b54acc01483ccd0ac72 Je l'ai mentionné.

Jointure DataFrame (direction des lignes)

pd.concat([data,data])

résultat

スクリーンショット 2017-07-28 22.48.35.png

Jointure DataFrame (direction de la colonne)

pd.concat([data,data], axis=1)

résultat

スクリーンショット 2017-07-28 22.49.28.png

Changer toutes les valeurs

data.pipe(lambda df: df / 2)

résultat

スクリーンショット 2017-07-28 22.50.29.png

Trier par valeur

data['Titre A'].sort_values(ascending = True)

résultat

スクリーンショット 2017-07-28 22.51.18.png

Recommended Posts

Une collection de méthodes utilisées lors de l'agrégation de données avec des pandas
Récapitulatif des méthodes Pandas utilisées lors de l'extraction de données [Python]
Un mémorandum de méthode souvent utilisé lors de l'analyse de données avec des pandas (pour les débutants)
La méthode minimale à retenir lors de l'agrégation de données avec Pandas
Résumé des méthodes fréquemment utilisées chez les pandas
Exemple de traitement efficace des données avec PANDAS
Un mémorandum de problème lors du formatage des données
Gérez le chevauchement lors du dessin d'un diagramme de dispersion avec une grande quantité de données (Matplotlib, Pandas, Datashader)
Transformez les données de vacances en une trame de données avec les pandas
Visualisation des données avec les pandas
Manipulation des données avec les Pandas!
Mélangez les données avec les pandas
Soyez prudent lors de la lecture de données avec des pandas (spécifiez dtype)
Une collection de commandes fréquemment utilisées dans la gestion des serveurs
Lors de la lecture d'un fichier csv avec read_csv de pandas, la première colonne devient index
Un diagramme de réseau a été créé avec les données du COVID-19.
Remarques sur la gestion de grandes quantités de données avec python + pandas
Peut être utilisé avec AtCoder! Une collection de techniques pour dessiner du code court en Python!
Ingéniosité pour gérer les données avec Pandas de manière à économiser la mémoire
[Python] Extrait les blocs de données de Pandas qui ne correspondent pas à une colonne spécifique avec d'autres blocs de données
Conseils de traitement des données avec Pandas
Deux méthodes pour extraire des conditions avec des pandas (condition unique, conditions multiples)
Une collection de serveurs Web à une seule ligne
Traçage de données polyvalent avec pandas + matplotlib
Dessinez un graphique avec des pandas + XlsxWriter
[Python] Formater quand to_csv avec des pandas
Mettez à jour les données en les téléchargeant sur s3 d'aws avec une commande, et supprimez les données utilisées (en chemin)
Une collection d'exemples lorsque vous êtes confus par la notation de tranche de Python
Ne changez pas l'ordre des colonnes lors de la concaténation des trames de données pandas.
Une collection de conseils pour accélérer l'apprentissage et le raisonnement avec PyTorch
Un rappel de ce que je suis resté coincé lors du démarrage d'Atcoder avec python
[Big Query] Chargez une partie des données BQ dans les pandas à grande vitesse
J'ai fait une erreur en récupérant la hiérarchie avec MultiIndex of pandas
Le résultat était meilleur lorsque les données d'apprentissage du mini-lot ont été faites un hybride de fixe et aléatoire avec un réseau de neurones.
Un petit examen minutieux de Pandas 1.0 et Dask
Essayez de convertir en données ordonnées avec les pandas
Une solution de contournement lors de l'installation de pyAudio avec pip.
[Pandas_flavor] Ajouter une méthode de Pandas DataFrame
Mémorandum de migration avec GORM
Recommandation d'Altair! Visualisation des données avec Python
Lire le fichier de données de caractères avec numpy
Pandas: un exemple très simple de DataFrame.rolling ()
Gérez les structures de données 3D avec les pandas
Meilleures pratiques pour manipuler les données avec les pandas
Introduction du code de dessin pour les figures avec un certain degré de perfection des données météorologiques
Python scikit-learn Une collection de conseils de modèles prédictifs souvent utilisés sur le terrain
Notes personnelles des opérations liées aux pandas qui peuvent être utilisées dans la pratique
Résumé des sources de données scikit-learn pouvant être utilisées lors de la rédaction d'articles d'analyse
Changer le bloc de données des données d'achat de pandas (produit ID X) en dictionnaire
Pratique de création d'une plateforme d'analyse de données avec BigQuery et Cloud DataFlow (traitement de données)
Python scikit-learn Une collection de conseils de modèles prédictifs souvent utilisés sur le terrain
[Introduction à Python] Comment obtenir l'index des données avec l'instruction for
J'ai créé une fonction pour récupérer les données de la colonne de base de données par colonne en utilisant sql avec sqlite3 de python [sqlite3, sql, pandas]