introduction

Pandas est une bibliothèque qui peut facilement gérer des données tabulaires. Ici, je vais me concentrer sur les points que vous devez savoir au moins sur les Pandas. Il est censé utiliser la série Python3.

Charger la bibliothèque

Vous pouvez charger la bibliothèque en utilisant ʻimport`. Par convention, il est souvent abrégé en «pd».

`Pandas_1.py`


import pandas as pd

Series

La série est une donnée de type liste de type dictionnaire.

Créer une série

`Pandas_2.py`


import pandas as pd


series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})
print(series_olympic)

Référence de la série

`Pandas_3.py`


import pandas as pd


series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})

print(series_olympic[0:2])
print(series_olympic.index) #Extrayez uniquement l'index.
print(series_olympic.values) #Extrayez uniquement la valeur.

print(series_olympic[series_olympic % 8 == 0]) #Extrayez uniquement les éléments qui remplissent les conditions.

Ajouter / supprimer des éléments

`Pandas_4.py`


import pandas as pd


series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})

series_olympic = series_olympic.append(pd.Series({'Pékin': 2008})) #Ajoutez un nouvel élément.
print(series_olympic)

series_olympic = series_olympic.drop('Tokyo') #Supprimez l'élément.
print(series_olympic)

Tri en série

`Pandas_5.py`


import pandas as pd


series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})

print(series_olympic.sort_index()) #Trier par ordre croissant d'index.
print(series_olympic.sort_values()) #Trier par ordre croissant de valeur.
print(series_olympic.sort_values(ascending=False)) #Trier par valeur dans l'ordre décroissant.

DataFrame

DataFrame est une donnée tabulaire qui rejoint Series.

Créer un DataFrame

`Pandas_6.py`


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])

df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
print(df_humans)

df_humans.index = ['Ichiro', 'Jiro', 'Saburo'] #Donnez un nom de ligne.
df_humans.columns = ['Nom', 'la taille', 'poids'] #Donnez un nom de colonne.
print(df_humans)

df_humans_empty = pd.DataFrame(columns=['Nom', 'la taille', 'poids']) #Crée un DataFrame vide avec le nom de colonne spécifié.
print(df_humans_empty)

Référence DataFrame

`Pandas_7.py`


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Homme', 'Homme', 'femme', 'Homme'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Nom', 'la taille', 'poids', 'sexe', 'BMI']

print(df_humans['Nom']) # 「Nom」の列を取り出す。
print(df_humans.Nom) # これでも「Nom」の列を取り出せる。

print(df_humans.loc['Ichiro', 'poids']) #Extraire en spécifiant le nom de la ligne et le nom de la colonne.
print(df_humans.loc[['Ichiro', 'Jiro'], ['la taille', 'poids', 'BMI']]) #Vous pouvez également spécifier plusieurs lignes et plusieurs colonnes.
print(df_humans.loc['Jiro']) #Extrait toute la ligne spécifiée.
print(df_humans.loc[:, 'BMI']) #Extrait toute la colonne spécifiée.

print(df_humans.iloc[0, 2]) #Extraire en spécifiant le numéro d'index de ligne et le numéro d'index de colonne.
print(df_humans.iloc[[0, 1], [1, 2, 4]]) #Vous pouvez également spécifier plusieurs lignes et plusieurs colonnes.
print(df_humans.iloc[1]) #Extrait toute la ligne spécifiée.
print(df_humans.iloc[:, 4]) #Extrait toute la colonne spécifiée.

print(df_humans[df_humans['BMI'] >= 25]) #Extrayez uniquement les lignes qui remplissent les conditions.
print(df_humans[(df_humans['la taille'] >= 170) & (df_humans['poids'] >= 70)]) #Conditions multiples(and)Mais c'est possible.
print(df_humans[(df_humans['poids'] < 70) | (df_humans['BMI'] < 25)]) #Conditions multiples(or)Mais c'est possible.
print(df_humans[df_humans['BMI'] < 25]['Nom']) #Il est également possible de spécifier des colonnes en filtrant les lignes qui remplissent les conditions.

Tri des DataFrame

`Pandas_8.py`


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Homme', 'Homme', 'femme', 'Homme'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Nom', 'la taille', 'poids', 'sexe', 'BMI']

df_humans = df_humans.sort_values(by='poids') # poidsで昇順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by='poids', ascending=False) # poidsで降順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by=['poids', 'BMI']) # poids、BMIで昇順にソートする。
print(df_humans)

Ajouter / supprimer des lignes ou des colonnes

`Pandas_9.py`


import pandas as pd


series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])

df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
df_humans.index = ['Ichiro', 'Jiro', 'Saburo']
df_humans.columns = ['Nom', 'la taille', 'poids']

df_humans['sexe'] = ['Homme', 'Homme', 'femme'] #Ajoutez une colonne.
df_humans['BMI'] = df_humans['poids'] / ((df_humans['la taille']  / 100)** 2) #Il est également possible d'ajouter le résultat calculé entre les colonnes.
print(df_humans)

df_humans.loc['Shiro'] = ['Siro', 170, 72, 'Homme', 24.9] #Ajoutez une ligne.
print(df_humans)

df_humans_2 = df_humans.drop('Saburo') #Supprimez la ligne.
print(df_humans_2)
df_humans_3 = df_humans.drop('sexe', axis=1) #Supprimez la colonne.
print(df_humans_3)

Lecture / écriture de fichiers externes

`Pandas_10.py`


import pandas as pd


df_csv = pd.read_csv('filepath/filename.csv') #Lisez le fichier CSV.
df_text = pd.read_csv('filepath/filename.txt', sep='¥t') #Lisez un fichier texte délimité par des tabulations.
df_excel = pd.read_excel('filepath/filename.xlsx') #Lisez le fichier Excel.

df_csv_2 = pd.read_csv('filepath/filename_2.csv', header=1) #Si la première ligne est vide et que vous souhaitez que la deuxième ligne soit le nom de la colonne.
df_csv_3 = pd.read_csv('filepath/filename_3.csv', header=None) #S'il n'y a pas de nom de colonne.

df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name=1) #Spécifiez le numéro d'index (à partir de 0) de la feuille.
df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name='sheet2') #Spécifiez le nom de la feuille.


df_csv.to_csv('filepath/filename.csv') #Exportez un fichier CSV.
df_text.to_csv('filepath/filename.txt', sep='¥t') #Exportez un fichier texte délimité par des tabulations.
df_excel.to_excel('filepath/filename.xlsx') #Exportez le fichier Excel.

df_csv.to_csv('filepath/filename.csv', index=False) #Si vous n'avez pas besoin du numéro d'index dans la colonne la plus à gauche.

Résumé

Ici, nous avons présenté les bases de Pandas. Une fois que vous pourrez faire tout cela, vous pourrez lire les fichiers externes, les traiter et les écrire.

Documents de référence / liens

Quel est le langage de programmation Python? Peut-il être utilisé pour l'IA et l'apprentissage automatique?

[PYTHON] Un chercheur d'une société pharmaceutique a résumé les pandas

introduction

Charger la bibliothèque

Pandas_1.py