[PYTHON] Notions de base sur les pandas

Résumé de base des pandas

À propos de Series et DataFrame

Series

Qu'est-ce qu'une série? Une liste de valeurs unidimensionnelles

series_spreadsheet.png

Lorsqu'un objet de type dict est placé dans Series, la clé est exprimée sous forme d'index.

data = {
    "Name":"Jhon",
    "Sex":"male",
    "AGe":22
}
pd.Series(data)
>
Name    Jhon
Sex     male
AGe       22
dtype: object

Créer une série à partir du tableau Numpy

array = np.array([22,31,42,23])
age_series = pd.Series(array)
age_series

Spécifiez l'index dans le tableau et appelez par index

array = np.array(['John','male',22])
john_series = pd.Series(array,index = ['Name','Sex','Age'])
john_seiies["Name"]
>John

john_seiries
>
Name    John
Sex     male
Age       22
dtype: object

Obtenez le tableau Numpy d'origine

age_series.values.values 
>array([22, 31, 42, 23])

DataFrame

En tant qu'image, la matrice elle-même est traitée comme un tableau (série de lignes, série de colonnes) et la combinaison est comme un DataFrame.

unnamed.png

Dans la figure ci-dessus, seule la colonne Série, Gère également les séries en rangées

Créé à partir du tableau Numpy

ndarray = np.arange(10).reshape(2,5)
ndarray
>
array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

pd.DataFrame(ndarray,index = ["index1",'index2'] ,columns = ['a','b','c','d','e' ])
>
         | a | b | c | d | e |
| index1 | 0 | 1 | 2 | 3 | 4 |
| index2 | 5 | 6 | 7 | 8 | 9 |

Flux de base 1 Lire avec read_csv 2 Analyser les informations de données de base

df = pd.read_csv("dataset/tmdb_5000_movies.csv")
# len()Vérifiez le nombre de données avec
len(df) 

Lorsque vous souhaitez afficher la liste sans l'omettre

#Supprimer les restrictions de colomu
pd.set_option('display.max_columns',None)

#Éliminez les restrictions sur les lignes (chaque donnée) (* Notez que ce sera lourd)
pd.set_option('display.max_rows',None)
df.describe()
type(df)  #se décrire peut être traité comme un DataFrame

Opérations DataFrame

Retourné en série

df["Nom de colonne"]○ Recommandé
df.Nom de la colonne ▲ Non recommandé

Renvoyé par DataFrame

df[["revenue"]]

# Colum peut être sélectionné plusieurs fois
df[["revenue","original_title","budget"]]
#Spécifiez l'index d'une ligne spécifique et récupérez-le
df.iloc[10:13]

#Spécifiez l'index d'une ligne spécifique et récupérez la colonne spécifiée
df.iloc[10:13]["original_title"]

Supprimer la ligne / colonne

drop() #Le dataframe d'origine reste inchangé

Modifiez le DataFrame d'origine avec inplace = True


<Supprimer des lignes spécifiques à la fois axe=0 (* spécifié par défaut)>
df.drop('id', (axis = 0) ,(inplace = True))  

<Supprimer l'axe de colonne spécifié= 1>
df.drop('id', axis = 1,(inplace = True))  

df = df.drop(5) #Une méthode pour mettre à jour les données d'origine, qui est plus importante que sur place! Utilisez les mêmes variables

dropna()Supprimer toutes les valeurs manquantes

np.isnan()Déterminez s'il y a nan (valeur manquante)

fillna()Remplissez les valeurs manquantes
>fillna(df["runtime"].mean())

Filter

Comment filtrer
#Exemple) Je souhaite spécifier uniquement les films japonais
j_movie = df[df['original_language'] == 'ja'] #Cette façon d'écrire est fondamentalement souvent utilisée


()&()Ou()|()Entrez plusieurs conditions avec
#Exemple) Je souhaite spécifier uniquement les films japonais avec une note de 8 ou plus.
j_movie = df[(df['original_language'] == 'ja') & (df["vote_average"] >= 8 ) ] 

df[ (df['budget'] == 0 ) | (df['revenue'] == 0 ) ]
→ Filtre: "Pas de budget ni de ventes"
 

df[ ~ ((df['budget'] == 0 ) | (df['revenue'] == 0 )) ]
Filtre: "Le budget ou les ventes ne sont pas 0" (PAS de calcul ~)

comment utiliser merge ()

Argumenter comment les options

df1 = pd.DataFrame({'key':["k0","k1","k2"],
                  'A':["a0","a1","a2"],
                  'B':["b0","b1","b2"]})

df2 = pd.DataFrame({'key':["k0","k1","k2"],
                  'C':["c0","c1","c2"],
                  'D':["d0","d1","d2"]})

join-type.jpg

20150125230158.png

Recommended Posts

Notions de base sur les pandas
Notions de base sur les pandas
Pandas
Mémo Pandas
Principes de base de Pandas pour les débutants ① Lecture et traitement
Bases de Linux
Les bases de Python
Principes de base de NumPy
Les bases de Python ④
Les bases de Git
Notes de pandas
Les bases de Python ③
Les bases de Python
Les bases de Django
Mémorandum de Pandas
Bases de Linux
Les bases de Python
Les bases de Python
Les bases de Python ③
mémorandum pandas
mémo pandas
Les bases de Python ②
Les bases de Python ②
Lien récapitulatif des bases de Pandas pour les débutants
pandas SettingWithCopyWarning
mémo d'auto-apprentissage pandas
Les bases de Pandas pour les débutants ③ Créez un histogramme avec matplotlib
bases de python: liste
Mémorandum de base Python
Principes de base du script Shell # 2
Mes pandas (Python)
Excel-> pandas-> sqlite
Les bases de #Python (#matplotlib)
Principes de base de Python CGI
bases de python: dictionnaire
[pandas] Conseils GroupBy
lecture de données pandas
À propos de décrire les pandas
liens relatifs aux pandas
Pandas de valeur manquante
9rep - Pandas MySQL
[Pandas] Principes de base du traitement des données de date à l'aide de dt
Les bases de Python ①
Bases de python ①
bases de la tranche de python
# Principes de base de Python (portée)
Aller aux bases de la classe
Les bases de #Python (#Numpy 1/2)
Les bases de #Python (#Numpy 2/2)
Apprendre sans enseignant 1 Principes de base
# Bases de Python (fonctions)
Mémorandum d'opération Pandas
principes de base des tableaux python
Trier par pandas
Principes de base du profilage Python
Principes de base des commandes Linux
Principes de base de Python #Numpy
bases de python: fonctions
Principes de base de Pandas pour les débutants ② Présentation des données de saisie
mémo pandas python