[Python] Résumé de l'utilisation des pandas

Note sur le traitement des données par pandas La page d'information sur les pandas est assez abondante, c'est donc principalement un résumé de liens.

Environnement d'exécution

Je pense qu'il est préférable d'utiliser Jupyter (IPython) Notebook comme environnement d'exécution.

Installer python3 et Jupyter Notebook (anciennement ipython notebook) sur Windows --Qiita

Installer et importer des pandas

$ pip install pandas
import pandas as pd

Créer un DataFrame

Nouvelle création de données

Vous pouvez créer un DataFrame avec pd.DataFrame. Notez que le nombre de données pour chaque colonne doit correspondre.

Créer un DataFrame


df = pd.DataFrame({
        'A' : [1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7, 8, 9, 10],
        'B' : [1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 7, 7, 8, 8, 8, 8, 8, 8]
    })

Lire les données existantes

Ouvrez CSV, TSV

Lire les données et créer DataFrame


# CSV
csv_data  = pd.read_csv('./path/to/hoge.csv')

# TSV
tsv_data  = pd.read_csv('./path/to/hoge.csv', delimiter='\t')

Lecture et écriture de fichiers csv / tsv avec pandas | mwSoft Lire csv / tsv avec une taille de colonne non constante avec pandas: blog mwSoft Mémorandum de codage Python - Partie 3 (Maîtriser les pandas read_csv) - Voyage d'auto-considération

Extraire des données

Processus de sélection des données des pandas Python plus en détail <Partie 1> --StatsFragments Processus de sélection des données des pandas Python plus en détail <Partie 2> --StatsFragments Processus de sélection des données des pandas Python plus en détail <Partie 2> --StatsFragments Reportez-vous aux données trame par condition dans Pandas - Qiita

Extraction de colonne

Spécification de la colonne d'extraction à partir du nom de l'étiquette

data = data[['column1', 'column2']]

Extraction de lignes

Extraire en spécifiant les conditions

data = data[data.column1 == 'hoge']

Extraction par recherche avec des expressions régulières

data = data[data.column1.str.contains(regex)]

Pandas Python: recherchez DataFrame à l'aide d'expressions régulières --Qiita <Python, pandas> Recherche de chaîne de trame de données - Note de Nekoyuki

Suppression des valeurs manquantes (NaN)

Supprimez les lignes qui ont même l'une des valeurs manquantes


df = df.dropna()

Spécifiez l'élément


df = df.dropna(subset=['Objet 1', 'Point 2'])

Jointure DataFrame

Traitement de concaténation / jointure de données de diagramme pandas Python --StatsFragments Merge, join, and concatenate — pandas 0.18.1 documentation

Traitement DataFrame

Tri des données

Trier par numéro

Tri des données


#Dans le cas d'un type
df = df.sort_values(['type de données'])

# 1 ->Trier par ordre croissant de 2
df = df.sort_values(['Type de données 1', 'Type de données 2'])

pandas.DataFrame.sort_values — pandas 0.18.1 documentation Trier par pandas-Qiita

Renommer la ligne / colonne

df.rename(columns={'A': 'a'}, index={'ONE': 'one'}, inplace=True)

pandas.DataFrame.rename — pandas 0.18.1 documentation Changer le nom de ligne / nom de colonne de pandas DataFrame | nkmk log

Réaffecter l'index dans l'ordre actuel des données

df = df.reset_index(drop=True)

python - How to reset index in a pandas data frame? - Stack Overflow pandas.DataFrame.reset_index — pandas 0.18.1 documentation

Changer le type de données

Traiter comme du type à virgule flottante


df = df.astype(float)

Inversion de matrice

Inversion de matrice


df = df.T

無題.png

Conversion de DataFrame vers un autre format

Conversion de DataFrame en liste

df.values.tolist()

python - Pandas DataFrame to list - Stack Overflow

Exporter en CSV, TSV

# CSV
data.to_csv('./path/to/output.csv')

# TSV
data.to_csv('./path/to/output.csv', sep='\t')

Lecture et écriture de fichiers csv / tsv avec pandas | mwSoft

pandas <=> Coopération entre DB

Microsoft Access (mdb) [Linux] [Python] [Pandas] Lire la base de données Microsoft Access (* .mdb) avec Pandas --Qiita

Tracé de données / sortie graphique

Spécifications de base de plot chez les pandas

pandas enveloppe finement matplotlib. Jusqu'à un certain graphique peut être produit avec plot de pandas. Pour savoir comment générer des graphiques dans les pandas, reportez-vous à ce qui suit.

Visualization — pandas 0.18.1 documentation

Manipulez un peu plus les pandas

Maîtriser la fonction de tracé des pandas Python-StatsFragments Si vous utilisez la fonction de tracé de Pandas en Python, c'est vraiment transparent du traitement des données à la création du graphe --Qiita

Traitement manquant / aberrant / discret

Python pandas Missing / Outlier / Discrete Handling-StatsFragments

À propos des performances

Trois CONSEILS pour maintenir les performances des pandas Python-StatsFragments

Livres

Livre de commentaires de l'auteur de pandas O'Reilly Japan - Introduction à l'analyse de données avec Python

Référence (à propos des pandas)

Référence (sur le traitement des données)

Recommended Posts

[Python] Résumé de l'utilisation des pandas
[Python2.7] Résumé de l'utilisation d'unittest
Résumé de l'utilisation de la liste Python
[Python2.7] Résumé de l'utilisation du sous-processus
Résumé de l'utilisation de MNIST avec Python
Résumé de l'utilisation de pandas.DataFrame.loc
[Python] Comment utiliser la série Pandas
Résumé de l'utilisation de pyenv-virtualenv
Résumé de l'utilisation de csvkit
Comment utiliser Pandas 2
[Question] Comment utiliser plot_surface de python
[Python] Résumé de l'utilisation des fonctions de fractionnement et de jointure
[Python] Comment utiliser deux types de type ()
python3: Comment utiliser la bouteille (2)
Résumé de la façon d'importer des fichiers dans Python 3
[Python] Comment utiliser la liste 1
Comment utiliser Python Argparse
Comment utiliser Pandas Rolling
Python: comment utiliser pydub
[Python] Comment utiliser checkio
Résumé de l'étude de Python pour utiliser AWS Lambda
[Python] Comment utiliser input ()
Comment utiliser Python lambda
[Python] Comment utiliser virtualenv
python3: Comment utiliser la bouteille (3)
python3: Comment utiliser la bouteille
Comment utiliser les octets Python
J'ai essayé de résumer comment utiliser matplotlib de python
Comment utiliser Python Kivy ① ~ Bases du langage Kv ~
J'ai essayé de résumer comment utiliser les pandas de python
[Python] Résumé de la façon de spécifier la couleur de la figure
Python: comment utiliser async avec
Comment utiliser les requêtes (bibliothèque Python)
Comment utiliser SQLite en Python
[Introduction à Python] Utilisons les pandas
[Python] Comment utiliser la liste 3 Ajouté
Comment utiliser Mysql avec python
Comment utiliser l'API Python d'OpenPose
Comment utiliser ChemSpider en Python
Python: Comment utiliser pydub (lecture)
Comment utiliser PubChem avec Python
[Introduction à Python] Utilisons les pandas
Comment utiliser la fonction zip de python
[Introduction à Python] Utilisons les pandas
[Python] Comment utiliser l'API Typetalk
[python] Résumé de la récupération des listes et des éléments du dictionnaire
Comparaison de l'utilisation des fonctions d'ordre supérieur dans Python 2 et 3
[Introduction à Python] Comment utiliser la classe en Python?
[Python] Utilisez des pandas pour extraire △△ qui maximise ○○
scikit-learn Comment utiliser le résumé (apprentissage automatique)
Comment installer et utiliser pandas_datareader [Python]
[Pandas] Qu'est-ce que set_option [Comment utiliser]
[python] Comment utiliser __command__, explication des fonctions
Comment calculer Utiliser% de la commande df
[Python] Comment utiliser import sys sys.argv
[Python] Organisation de l'utilisation des instructions
Mémorandum sur l'utilisation du python gremlin
python: Comment utiliser les locals () et globals ()
Comment utiliser __slots__ dans la classe Python
Jupyter Notebook Principes d'utilisation