[PYTHON] Mémo Pandas

S'il y a du contenu lié à Pandas dans l'apprentissage de Python, je le mettrai à jour de temps en temps.

Pandas Une bibliothèque qui fournit des fonctions pour prendre en charge l'analyse des données


importer

python


import pandas as pd

Capture de données

Lire CSV [read_csv]

python


csv_test_1 = pd.read_csv('hoge.csv')
Lire Excel [read_excel]

python


excel_data = pd.read_excel('hoge.xlsx')

Jointure de données (union)

Combinaison verticale de données [concat]

python


csv_test_2 = pd.read_csv('hoge_2.csv')
csv_test = pd.concat([csv_test_1 , csv_test_2], ignore_index=True)
csv_test.head()
Fusion de données JOINT GAUCHE [fusion]

-Lorsque les noms d'éléments des deux tables à joindre sont les mêmes. Combinez avec ```on = "id" `` `comme condition.

Table de post-jointure= pd.merge(Tableau 1,Tableau 2, on="Joindre l'élément", how="Méthode")




#### **`python`**
```python

join_data = pd.merge(a_data, b_data[["id", "date", "customer"]], on="id", how="left")
join_data.head()

-Lorsque les noms d'éléments des deux tables à joindre sont différents. Combiné avec `left_on =" customer_name ", right_on =" customer name "" `.

python


pd.merge(a_data, b_data, left_on="customer_name", right_on="Nom du client", how="left")

Confirmation des données

Acquisition de données uniques [pd.unique (data)]

python


pd.unique(test_data.item_name))
len(pd.unique(test_data.item_name))) #Nombre de données uniques

Manipuler la date

Convertit la valeur de la colonne a en type datetime [to_datetime ()]

python


test_data["a"] = pd.to_datetime(test_data["a"])
Extraction de la date [dt]
Format de la date [dt.strftime ("% Y% m")]

python


time_data["payment_month"] = time_data["payment_date"].dt.strftime("%Y%m")

Tableau croisé dynamique

Créer un tableau croisé dynamique [pd.pivot_table]

python


pd.pivot_table(test_data, index='item_name', columns='payment_month', values=['price', 'quantity'], aggfunc='sum')

** ・ Présentation du tableau croisé dynamique ** index: spécifiez une ligne colonnes: spécifiez les colonnes valeurs: spécifiez les valeurs à agréger aggfunc: spécifiez la méthode d'agrégation


Comme ce n'est pas le contenu de Pandas, il sera organisé séparément plus tard

Affichage des données

Afficher [imprimer]

python


print(len(test_data))  #Afficher le nombre de données
Afficher les 5 premières lignes de données [head]

python


csv_test_1.head()
Spécifiez la colonne de données et affichez les 5 premières lignes [head]

python


csv_test_1["Nom de colonne"].head()

Manipuler des données

Extraire les données avec la fonction .loc [.loc (condition, colonne à acquérir)]

python


res = test_data.loc[flg_is_null, "item_name"]

Créer une chaîne de données

Définissez la valeur obtenue en multipliant a et b par nouveau dans la colonne supplémentaire.

python


test_data["new"] = test_data["a"] * test_data["b"]

Calcul des données

Somme de la colonne a [column.sum ()]

python


test_data["a"].sum()
Agréger par groupe spécifié [groupby ("colonne"). Somme ("colonne")]

python


test_data.groupby("create_date").sum()["price"]
Agréger par groupe spécifié (spécifications multiples) [groupby ("colonne"). Sum ("colonne")]

python


test_data.groupby(["create_date", "item_name"]).sum()[["price", "quantity"]]

Comparaison des données

Comparez le total de la colonne a avec le total de la colonne b et affichez le résultat en VRAI / FAUX

python


test_data["a"].sum() == test_data["b"].sum()
Vérifiez les valeurs manquantes, renvoyez NULL pour chaque colonne comme TRUE / FALSE et additionnez la somme

python


test_data.isnull().sum()
Confirmation des valeurs manquantes Renvoie la présence ou l'absence de valeurs manquantes en TRUE / FALSE pour chaque colonne

python


test_data.isnull().any(axis=0)
Sortie de diverses statistiques [describe ()]

python


test_data.describe()
Valeurs maximale et minimale de la colonne spécifiée [max (), min ()]

python


test_data["create_date"].min()
test_data["create_date"].max()
Confirmation du type de données [dtypes]

python


test_data.dtypes

-Les différentes statistiques suivantes peuvent être affichées avec describe (). Nombre de données (décompte), moyenne (moyenne), écart type (std), minimum (min), quadrant (25%, 75%), médiane (50%), maximum (max)


Mémo de travail · Nettoyage des données

Traitement des données: Pandas Visualisation: Matplotlib Apprentissage automatique: scikit-learn

Recommended Posts

Mémo Pandas
mémo pandas
Mémo inversé Pandas
Pandas
Mémo de visualisation par pandas, seaborn
mémo gzip
Mémo Raspberry-pi
[Python] Mémo d'opération de pandas DataFrame
Mémo HackerRank
Mémo Python
mémo python
mémo graphène
Mémo du flacon
mémo pyenv
Mémo Matplotlib
Mémo Pandas ~ Aucun, np.nan, sur les caractères vides ~
mémo pytest
mémo sed
Mémo Python
Installer Memo
Notions de base sur les pandas
Mémo BeautifulSoup4
Notes de pandas
mémo networkx
mémo python
mémo Tomcat
[Mémo] Petite histoire de pandas, stupide
mémo de commande
Mémo du générateur.
Mémorandum de Pandas
mémo psycopg2
Mémo Python
Mémo SSH
Notions de base sur les pandas
Mémo: rtl8812
mémorandum pandas
Mémo Shell
pandas SettingWithCopyWarning
Mémo Python
Mémo Pycharm
mémo d'auto-apprentissage pandas
Mémo de dévotion AtCoder (11/12)
[OpenCV] Mémo personnel
[Python] Mémo sur le dictionnaire
Mémo push PyPI
mémo d'introduction tensorflow-gpu
Note d'étude LPIC201
Mémo Jupyter Notebook
Mémo de virtualisation LPIC304
Mémo d'exécution ALDA
Mes pandas (Python)
mémo débutant python (9.2-10)
youtube télécharger un mémo
Inu x Memo
Mémo d'apprentissage Django
ARC # 016 Mémo de participation
Belle note de soupe
Note d'étude LPIC101
mémo débutant python (9.1)