Récapitulatif des méthodes Pandas utilisées lors de l'extraction de données [Python]

introduction

Lors de la récupération de données avec Python J'utilise beaucoup les bibliothèques Pandas.

Cependant, les débutants de l'analyse des données

Ce sera une situation comme celle-là.

Dans cet article J'ai essayé de résumer les méthodes qui apparaissent fréquemment lors de l'extraction de données.

environnement

Qu'est-ce que les pandas?

C'est l'une des bibliothèques Python pour une analyse efficace des données.

la mise en oeuvre

Charger les données nécessaires

Cette fois, nous utiliserons le jeu de données "iris", disponible en standard dans seaborn.

import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()

スクリーンショット 2020-05-06 11.44.08.png

Extraire des données en spécifiant une matrice

Vous pouvez obtenir des données librement en spécifiant le numéro de ligne et le numéro de colonne.

Extraction de données avec numéro de ligne

#Données dans la troisième ligne
iris.iloc[3]

image.png

#Données sur les lignes 0 et 2
iris.iloc[:3]

image.png

#3ème ligne, 1ère valeur de colonne
iris.iloc[3, 0]

image.png

#Données de la 0e à la 2e ligne et de la 2e à la 3e colonnes
iris.iloc[:3, 2:4]

image.png

Spécifiez le numéro de ligne et le nom de colonne pour extraire les données

iris.loc[[2,4,6],['petal_length', 'petal_width']]

image.png

Extraire des données dans des conditions spécifiques

Voici comment extraire des données en spécifiant des conditions.

Extraction de données par condition de correspondance exacte

Pour les éléments d'espèces, obtenez le nombre d'éléments dont le contenu correspond à setosa.

len(iris[iris['species'] == 'setosa'])

Extraction de données en utilisant plusieurs conditions

Lors de l'extraction de données, si vous souhaitez affiner selon plusieurs conditions, vous pouvez le faire en ajoutant des conditions.

#et la condition est()&()Et la condition ou est()|()
iris[(iris['species'] == 'setosa') & (iris['petal_width'] > 0.5)]

Extraction de données par condition de correspondance partielle

Dans certains cas, vous souhaitez extraire non seulement des correspondances exactes, mais également des contenus partiellement correspondants. Dans de tels cas, les contenus suivants peuvent être utilisés.

#Recherche de correspondance partielle(Extraire uniquement ceux qui correspondent partiellement à soi)
iris[iris.species.str.contains('se')]

Données agrégées

Au moment de l'agrégation, il est traité après avoir été converti en type DataFrameGroupBy.

iris_group = iris.groupby('species')
type(iris_group)

Le résultat de sortie est le suivant.

pandas.core.groupby.generic.DataFrameGroupBy

Valeur moyenne

iris_group.mean()

L'image de sortie est la suivante.

スクリーンショット 2020-05-06 11.53.53.png

De plus, la valeur minimale, la valeur maximale, l'écart type, etc. peuvent être calculés.

L'agrégation est également possible en fonction de plusieurs conditions.

iris_group2 = iris.groupby(['species', 'petal_width'])
iris_group2.mean()

スクリーンショット 2020-05-06 11.55.44.png

Combiner des données

Combinez les données avec la même structure de colonnes

Pour combiner des données qui ont la même structure de colonnes, utilisez la méthode append ou la méthode concat.

Cette fois, nous allons nous concentrer sur la méthode Panadas, nous allons donc la combiner avec la méthode concat.

import pandas as pd
iris_master = pd.DataFrame([['0', 'setosa'], ['1', 'versicolor'], ['2', 'virginica']], columns=['id', 'name'])
iris_master

image.png

add_iris = pd.DataFrame([['3', 'hoge']], columns=['id', 'name'])
add_iris

image.png

pd.concat([iris_master, add_iris])

image.png

Combinez les données avec différentes configurations de colonnes

Utilisez la méthode de fusion pour combiner plusieurs données avec différentes configurations de colonnes de données. (Bien qu'il soit possible de rejoindre la méthode de jointure, il est nécessaire d'indexer la colonne que vous souhaitez utiliser comme clé, ce qui est un peu gênant, donc je pense qu'il n'y a pas de problème si la méthode de fusion peut être utilisée en premier.)

Lors de la connexion, en spécifiant l'élément clé pour la participation, Joindre des lignes avec les mêmes éléments.

pd.merge(iris_group2.mean(), iris_master, left_on='species', right_on='name')

スクリーンショット 2020-05-06 12.04.02.png

finalement

À l'avenir, nous prévoyons d'améliorer les contenus suivants.

Informations de référence

Le contenu ci-dessus est résumé sur la base des sites suivants.

Il est expliqué plus en détail ici, donc si vous avez des questions, veuillez vous y référer.

Recommended Posts

Récapitulatif des méthodes Pandas utilisées lors de l'extraction de données [Python]
Une collection de méthodes utilisées lors de l'agrégation de données avec des pandas
Résumé des méthodes fréquemment utilisées chez les pandas
Résumé Xpath lors de l'extraction de données d'un site Web avec Python Scrapy
[Python] Résumé de l'utilisation des pandas
Résumé des méthodes intégrées, etc. de la liste Python
Résumé de ce qui a été utilisé dans 100 coups de Pandas (# 1 ~ # 32)
Résumé des tableaux Python fréquemment utilisés (pour moi-même)
Selenium Webdriver Résumé des méthodes de fonctionnement fréquemment utilisées
Résumé des méthodes de gestion des erreurs lors de l'installation de TensorFlow (2)
Résumé des arguments Python
Résumé des sources de données scikit-learn pouvant être utilisées lors de la rédaction d'articles d'analyse
Un mémorandum de méthode souvent utilisé lors de l'analyse de données avec des pandas (pour les débutants)
Résumé des outils nécessaires pour analyser les données en Python
Résumé des méthodes de prétraitement pour les débutants en Python (trame de données Pandas)
Liste du code Python utilisé dans l'analyse de Big Data
[Python] Résumé de la méthode de création de table utilisant DataFrame (pandas)
Résumé des choses qui étaient pratiques lors de l'utilisation de pandas
[Python] Introduction au scraping WEB | Résumé des méthodes pouvant être utilisées avec webdriver
résumé lié à l'opération de fichier python
Résumé des opérations de liste Python3
Résumé récent de l'étude des pandas python
Mémo récapitulatif des types de données Python
Résumé de l'utilisation de base de Pandas
Analyse de données à l'aide de pandas python
Le pouvoir des pandas: Python
Résumé de base des opérations de données dans Python Pandas - Deuxième moitié: agrégation de données
Remarques sur la gestion de grandes quantités de données avec python + pandas
Comparaison de la gestion des trames de données en Python (pandas), R, Pig
Résumé de base de la manipulation de données avec Python Pandas - Première moitié: création et manipulation de données
La méthode minimale à retenir lors de l'agrégation de données avec Pandas
[Python] Mémo d'opération de pandas DataFrame
Frappez les données du trésor de Python Pandas
Un bref résumé de la collection Python
Comment éviter la duplication des données lors de la saisie de Python vers SQLite.
Résumé de la grammaire fréquemment utilisée dans les pandas
Notes personnelles de prétraitement des données Python Pandas
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)
[Anaconda3] Résumé des commandes fréquemment utilisées
Python --Symboles utilisés lors de l'exécution d'opérations
Résumé des index et des tranches Python
[Python] Formater quand to_csv avec des pandas
[OpenCV; Python] Résumé de la fonction findcontours
Ne changez pas l'ordre des colonnes lors de la concaténation des trames de données pandas.
Résumé du livre électronique Python utile pour l'analyse de données gratuite
[Résumé des livres et cours en ligne utilisés pour l'apprentissage de la programmation et de la science des données]
Une collection de méthodes utilisées lors de l'agrégation de données avec des pandas
[Python] Joindre deux tables avec des pandas
Extraire plusieurs colonnes spécifiques avec des pandas
Résumé des méthodes pour déterminer automatiquement les seuils
Résumé des commandes fréquemment utilisées dans matplotlib
Python + Selenium Résumé des méthodes d'opération fréquemment utilisées
Résumé de diverses instructions for en Python
[Python2.7] Résumé de l'utilisation d'unittest
Résumé de l'extrait de code lors du développement avec Go
Pandas du débutant, par le débutant, pour le débutant [Python]
Recommandation d'Altair! Visualisation des données avec Python
Résumé des techniques utiles de Scrapy en Python
Résumé de l'utilisation de la liste Python
[Python2.7] Résumé de l'utilisation du sous-processus
Résumé de la spécification des options d'axe de Python "numpy.sum (...)"