Mes pandas (Python)

Résumé pour moi Mis à jour de temps en temps Décrivez la commande que vous avez utilisée et étudiée ** J'ai juste besoin de me connaître, donc les termes peuvent être erronés à certains endroits **

!! Vue

#commander
    #Description de l'option d'argument

Chargement du module

import pandas

Objets de données Pandas et opérations fréquentes

Series

#Objet de données unidimensionnel
#Disposer à mon image
ser = pandas.Series()

DataFrame

#Objet de données bidimensionnel
#Mon image est similaire à une table DB
df = pandas.DataFrame()

Manipulation de la structure DataFrame


#x,y,...Trier par ordre de
df.sort_values(x,y,...)

#Suppression de l'index d'argument.
df.drop(x)
    axis = 1 #Supprimer la colonne

#Combiner des trames de données
df.merge(x,y,on=z) #joindre les tables x et y avec la colonne z comme clé
    suffixes=() #Suffixe à ajouter lorsqu'il y a des éléments en double Séparé par des virgules, le premier est le suffixe gauche df et le second est le suffixe droit.
#Permuter les lignes et les colonnes
df.transpose()

df.concat([x,y,z,...])
    #Liste des dfs que vous souhaitez combiner en une liste d'arguments

Opération d'extraction / acquisition DataFrame


#Valeur maximum
df.max()

#valeur minimum
df.min()

#Extraire des informations pour chaque élément du bloc de données
df.info()
    #Aucun argument spécial n'est requis

#Extraire par numéro de ligne / numéro de colonne
df.iloc[ligne,Colonne] #Argument:Et tout

#Extraire par nom de ligne / nom de colonne
df.loc[ligne,Colonne] #Argument:Et tout

#WHERE IN dans SQL
df.isin()
    #Les arguments sont des listes, etc.

#Renvoie l'enregistrement de l'argument depuis le début
df.head()

#Obtenir la valeur médiane
df.median()

#Remplacer Nan
df.filna()

#Obtenez des statistiques récapitulatives
df.describe() 
#Renvoie les statistiques suivantes dans DataFrame pour toutes les colonnes numériques
 #count:Nombre d'éléments
 #unique:Nombre d'éléments de valeur uniques (uniques)
 #top:Valeur la plus fréquente (mode)
 #freq:Fréquence des valeurs les plus fréquentes (nombre d'occurrences)
 #mean:Moyenne arithmétique
 #std:écart-type
 #min:valeur minimum
 #max:Valeur maximum
 #50%:Médian
 #25%: 1/4 minutes
 #75%: 3/4 minutes

Groupby

#groupby
group = df.groupby()
    as_index=False #Si False, la valeur de référence de l'agrégation ne sera pas un indice
    how = left,right,outer
    #Nom de l'élément dans l'argument

#nombre
group.size()

#Regrouper des éléments spécifiques de différentes manières
df.agg({'Éléments à agréger':['Liste des méthodes d'agrégation']

Opération de lecture DataFrame

#Lisez csv. C'est lors de la lecture de données dont le délimiteur est une virgule
df.read_csv()
　　encoding: #Spécifiez le code de caractère
　　header= #Définir la ligne du nom de la colonne
    name= #Définir le nom de la colonne
    dtype= #Spécifiez le type de données avec le type de dictionnaire
    sep= #Spécifier un délimiteur
    engine=
    usecols = #Spécifiez la colonne à lire dans la liste.

#Lire le tableau. C'est à ce moment que le délimiteur lit les données de l'onglet
df.read_table()
　　encoding: #Spécifiez le code de caractère
　　header= #Définir la ligne du nom de la colonne
    name= #Définir le nom de la colonne

#Faites lire la base de données
df.read_sql()
    #Le premier argument est SQL
    #Le deuxième argument est l'objet de connexion

Opération d'exportation DataFrame

df.to_csv()
    encoding= #Code de caractère
    index= #Index de sortie ensemble ou True par défaut

Opération de nom de ligne / nom de colonne DataFrame

#Remplacer le nom de la colonne
df.columns = [list]
df.rename(columns={Nom de la colonne actuelle:Nouveau nom de colonne})

#Écraser l'index
df.index = [list]

#Changement de nom de colonne / nom d'index
df.rename({Nom actuel: Nouveau nom})
    axis=1 #Modifiez le nom de la colonne. S'il n'est pas spécifié, ce sera le nom de la ligne.
    

#Réindexer
df.reset_index()
    drop=True #Supprimer l'index existant

Opération d'écriture DataFrame

#Insérer une ligne
df.[Nom de colonne] = x


#Remplacer
df.replace({Caractère actuel:Nouveau personnage}) #L'argument est de type dictionnaire{Personnage à remplacer:Caractère remplacé}

#Insérez l'argument comme nouvelle ligne, la ligne à insérer est une liste, Series, numpy.array
df.append() 

#Ajouter une colonne
df.assign()

#Appliquer la fonction à chaque colonne / ligne
df.apply()
    axis=1 #Ligne par ligne
    axis=0 #Par colonne
    #Fonctionne comme un argument. Le style Lambda est bien.

Tourner l'instruction for dans DataFrame

#Extrayez le DataFrame ligne par ligne et appliquez-le à pour.
for index,row in df.iterrows()
  #La valeur de retour est l'index et les autres éléments de ligne

Expression Lambda dans DataFrame

Cet article est très simple à comprendre. ↓ Comité d'éradication des affectations réciproques pour le traitement des données Python / pandas

Graphique des pandas

#graphique à barres
df.plot.bar()

Faites quelque chose pour Nan

#Distinguer Nan
df.isnull()


#Supprimer Nan
df.dropna()
    axis=1 #Supprimer la colonne.

#Remplacer nan
df.fillna()

Gérez la duplication.


#Rechercher des lignes en double
#La valeur de retour est True si elle chevauche l'index, sinon la colonne False
df.dupulicated()
    keep = False #Si n'est pas spécifié, il ne peut pas être récupéré en tant que doublon.
#Supprimer complètement les lignes en double
df.drop_duplicates()

dessin

#Parcelle de paires
grr = pd.scatter_matrix(df)
    #df est les données à tracer
    c= #Valeur à l'échelle
    figsize=(x,y) #Taille de la figure
    marker= #Forme du marqueur
    hist_kwds={} #Paramètres d'histogramme
    s= #Taille du marqueur
    alpha= #Transparence