[PYTHON] Traitement des ensembles de données avec des pandas (1)

Extraction d'échantillons de données

Le prétraitement des données est indispensable pour l'analyse statistique. Tout d'abord, les données sont lues de manière à pouvoir être traitées par un ordinateur, mais le retournement est souvent un problème dans le processus de calcul qui gère des données volumineuses. Il y a plusieurs étapes à suivre dans de tels cas.

Cela faisait longtemps qu'on ne l'appelait pas de big data, mais en réalité il n'est pas nécessaire d'augmenter la taille de l'échantillon. Extrayons un échantillon significatif par Méthode d'échantillonnage.

Les E / S sont le goulot d'étranglement de nombreux processus de données centralisés. À ce stade, il est préférable d'envisager de lire uniquement les données nécessaires ou de diviser les données d'origine de manière appropriée pour réduire la taille d'entrée elle-même.

Découper et agréger des exemples de données

Tranchage

Le découpage est facile lorsque vous travaillez avec des données dans des pandas.

#Extraire des données jusqu'à 30 ans
data_y = data[:"30"]
#Extraire les données de plus de 31 ans
data_o = data["31":]

Vous pouvez également Fusionner les ensembles de données découpé de cette manière.

Agrégat

Voici un exemple d'utilisation de la moyenne de la période pour agréger les données mensuelles en données trimestrielles.

data.resample('Q',how="mean")

"somme", "moyenne", "médiane", "max", "min", "dernier", "premier" sont disponibles pour savoir comment.

Traitement des valeurs manquantes

L'ensemble de données n'est pas toujours bien organisé. pandas ajoute divers idiomes cultivés par des personnes sur le terrain pour gérer les valeurs manquantes.

Remplissez les trous

data.fillna(0)

Dans l'exemple ci-dessus, la valeur manquante est remplacée par 0. Si vous utilisez data.fillna (data.mean ()) etc., il sera rempli avec la valeur moyenne.

Spécifiez method = "ffill" pour remplir avec la valeur immédiatement suivante.

data.fillna(method='ffill')

En outre, les valeurs avant et après la valeur manquante Interpolation linéaire C'est facile à faire.

data.interpolate()

Vous supprimerez souvent les données contenant des valeurs manquantes. Retirez comme suit.

data.dropna(axis=0) #Axe de ligne=0 ou axe des colonnes=1

Ajouter et remplacer des données

Ajoutez une nouvelle colonne appelée data ['New'].

data['New']=rand(data.shape[0])

Cette fois également, ajoutez une ligne. Vous pouvez l'ajouter en spécifiant un bloc de données dans la fonction .append ().

data = data.append(pd.dataFrame([1,2,3,4,5],columns=["A","B","C","D","E"],index=data[-1:].index+1))

Vous pouvez l'écraser en transmettant les données que vous souhaitez remplacer à data.iloc. Puisque data.shape représente le nombre de matrices dans la trame de données, il peut être écrasé par des nombres aléatoires en générant et en substituant des nombres aléatoires à ce nombre de matrices.

#Écraser la première ligne avec un nombre aléatoire
data.iloc[0]=rand(data.shape[1])
#Écraser la première colonne avec un nombre aléatoire
data.iloc[:,0]=rand(data.shape[0])

Pour trier les données, transmettez une liste de noms de colonnes à la fonction .sort (). Dans l'exemple suivant, la première colonne est priorisée et les colonnes jusqu'à la deuxième colonne sont triées par ordre croissant. Le résultat est renvoyé au récepteur.

data.sort(columns=list(data.columns[0:2]),ascending=True)

Résumé

Voici un résumé des processus utiles lors du traitement des ensembles de données à l'aide de pandas.

Recommended Posts

Traitement des ensembles de données avec des pandas (1)
Traitement des ensembles de données avec des pandas (2)
Fusionner les ensembles de données avec les pandas
Conseils de traitement des données avec Pandas
Essayez rapidement de visualiser votre ensemble de données avec des pandas
Exemple de traitement efficace des données avec PANDAS
Traitement d'image avec MyHDL
Visualisez rapidement avec les pandas
Échantillonnage bootstrap avec Pandas
Convertir 202003 en 2020-03 avec les pandas
Dessinez un graphique en traitant avec Pandas groupby
Pandas apprenant avec la chimioinfomatique
Visualisation des données avec les pandas
Manipulation des données avec les Pandas!
Traitement d'image avec Python
Traitement parallèle avec multitraitement
Mélangez les données avec les pandas
100 traitement du langage knock-95 (en utilisant des pandas): Note avec WordSimilarity-353
Traitement d'image avec PIL
Traiter les données csv avec python (traitement du comptage à l'aide de pandas)
Traitement d'image avec Python (partie 2)
100 coups de traitement du langage avec Python 2015
Lire csv avec des pandas python
Charger json imbriqué avec des pandas
Traitement parallèle avec des fonctions locales
Traitement d'image avec PIL (Pillow)
"Traitement Apple" avec OpenCV3 + Python3
Traitement du signal acoustique avec Python (2)
Traitement du signal acoustique avec Python
[Python] Changer de type avec les pandas
Traitement parallèle avec Parallel de scikit-learn
Traitement d'image avec Python (partie 1)
Traitement d'image avec Python (3)
Standardisez par groupe avec les pandas
Empêchez les omissions avec l'impression de pandas
[Python] Traitement d'image avec scicit-image
Étudiez le traitement du langage naturel avec Kikagaku
[Python] Traitement parallèle facile avec Joblib
Extraire la valeur maximale avec les pandas.
Principes de base de Pandas pour les débutants ⑧ Traitement des chiffres
100 traitements de langage avec Python
[Traitement du langage naturel] Prétraitement avec le japonais
Pandas
Essayez le traitement du signal audio avec librosa-Beginner
100 traitements de langage avec Python (chapitre 3)
Traçage de données polyvalent avec pandas + matplotlib
Traitement d'image avec la binarisation Python 100 knocks # 3
[Python] Joindre deux tables avec des pandas
Traitement de chemin avec take while et drop while
Créez dynamiquement de nouvelles trames de données avec des pandas
Extraire plusieurs colonnes spécifiques avec des pandas
1. Statistiques apprises avec Python 1-1. Statistiques de base (Pandas)
Analyse pratique avec Pandas + notebook Jupyter
100 traitement du langage knock-31 (en utilisant des pandas): verbe
Dessinez un graphique avec des pandas + XlsxWriter
Manipuler des chaînes avec un groupe pandas par
Bulk Insert Pandas DataFrame avec psycopg2
Je veux faire ○○ avec les Pandas
Créez une tranche d'âge avec les pandas
100 traitement d'image par Python Knock # 2 Échelle de gris
Traitement arithmétique dans la classe de nombres Kanji