Zusammenfassung für mich Von Zeit zu Zeit aktualisiert Beschreiben Sie den Befehl, den Sie verwendet und untersucht haben ** Ich muss mich nur selbst kennen, daher können die Begriffe an einigen Stellen falsch sein **
!! Aussicht
#Befehl
#Beschreibung der Argumentoption
import pandas
Series
#Eindimensionales Datenobjekt
#Ordne in meinem Bild
ser = pandas.Series()
DataFrame
#Zweidimensionales Datenobjekt
#Mein Bild ähnelt einer DB-Tabelle
df = pandas.DataFrame()
#x,y,...Sortieren in der Reihenfolge von
df.sort_values(x,y,...)
#Der Argumentindex wurde entfernt.
df.drop(x)
axis = 1 #Spalte löschen
#Datenrahmen kombinieren
df.merge(x,y,on=z) #Verbinden Sie x- und y-Tabellen mit der z-Spalte als Schlüssel
suffixes=() #Suffix, das hinzugefügt werden soll, wenn doppelte Elemente vorhanden sind. Durch Kommas getrennt, ist das erste das linke df-Suffix und das zweite das rechte Suffix.
#Vertauschen Sie Zeilen und Spalten
df.transpose()
df.concat([x,y,z,...])
#Liste der dfs, die Sie zu einer Liste von Argumenten kombinieren möchten
#Maximalwert
df.max()
#Mindestwert
df.min()
#Extrahieren Sie Informationen für jedes Element im Datenrahmen
df.info()
#Es sind keine besonderen Argumente erforderlich
#Extrahieren Sie nach Zeilennummer / Spaltennummer
df.iloc[Linie,Säule] #Streit:Und alles
#Extrahieren nach Zeilenname / Spaltenname
df.loc[Linie,Säule] #Streit:Und alles
#WO IN in SQL
df.isin()
#Argumente sind Listen usw.
#Gibt den Datensatz für das Argument von Anfang an zurück
df.head()
#Medianwert abrufen
df.median()
#Ersetzen Sie Nan
df.filna()
#Erhalten Sie zusammenfassende Statistiken
df.describe()
#Geben Sie die folgenden Statistiken in DataFrame für alle numerischen Spalten zurück
#count:Anzahl der Elemente
#unique:Anzahl eindeutiger (eindeutiger) Wertelemente
#top:Häufigster Wert (Modus)
#freq:Häufigkeit der häufigsten Werte (Anzahl der Vorkommen)
#mean:Arithmetischer Durchschnitt
#std:Standardabweichung
#min:Mindestwert
#max:Maximalwert
#50%:Median
#25%: 1/4 Minuten
#75%: 3/4 Minuten
Groupby
#groupby
group = df.groupby()
as_index=False #Bei False ist der Referenzwert der Aggregation kein Index
how = left,right,outer
#Elementname im Argument
#Nummer
group.size()
#Aggregieren Sie bestimmte Elemente auf verschiedene Arten
df.agg({'Zu aggregierende Elemente':['Liste der Aggregationsmethoden']
#Lesen Sie csv. Dies ist beim Lesen von Daten, deren Trennzeichen ein Komma ist
df.read_csv()
encoding: #Geben Sie den Zeichencode an
header= #Legen Sie fest, in welcher Zeile der Spaltenname steht
name= #Spaltennamen festlegen
dtype= #Geben Sie den Datentyp mit dem Wörterbuchtyp an
sep= #Angeben eines Trennzeichens
engine=
usecols = #Geben Sie die Spalte an, die in der Liste gelesen werden soll.
#Tabelle lesen. In diesem Fall liest das Trennzeichen die Registerkarten
df.read_table()
encoding: #Geben Sie den Zeichencode an
header= #Legen Sie fest, in welcher Zeile der Spaltenname steht
name= #Spaltennamen festlegen
#Lassen Sie die DB lesen
df.read_sql()
#Das erste Argument ist SQL
#Das zweite Argument ist das Verbindungsobjekt
df.to_csv()
encoding= #Zeichencode
index= #Index zusammen ausgeben oder standardmäßig True
#Spaltennamen überschreiben
df.columns = [list]
df.rename(columns={Aktueller Spaltenname:Neuer Spaltenname})
#Index überschreiben
df.index = [list]
#Änderung des Spaltennamens / Indexnamens
df.rename({Aktueller Name: Neuer Name})
axis=1 #Ändern Sie den Spaltennamen. Wenn nicht angegeben, ist dies der Zeilenname.
#Reindex
df.reset_index()
drop=True #Vorhandenen Index löschen
#Zeile einfügen
df.[Spaltenname] = x
#Ersetzen
df.replace({Aktueller Charakter:Neuer Charakter}) #Das Argument ist ein Wörterbuchtyp{Zeichen zu ersetzen:Ersetzter Charakter}
#Fügen Sie das Argument als neue Zeile ein. Die einzufügende Zeile ist eine Liste, Serie, numpy.array
df.append()
#Spalte hinzufügen
df.assign()
#Wenden Sie die Funktion auf jede Spalte / Zeile an
df.apply()
axis=1 #Zeile für Zeile
axis=0 #Nach Spalte
#Funktion als Argument. Lambda-Stil ist in Ordnung.
#Extrahieren Sie den DataFrame zeilenweise und wenden Sie ihn auf for an.
for index,row in df.iterrows()
#Der Rückgabewert ist der Index und andere Zeilenelemente
Dieser Artikel ist sehr leicht zu verstehen. ↓ Ausschuss für die Beseitigung der gegenseitigen Substitution für die Datenverarbeitung von Python / Pandas
#Balkendiagramm
df.plot.bar()
#Nan unterscheiden
df.isnull()
#Entferne Nan
df.dropna()
axis=1 #Spalte löschen.
#Ersetzen Sie nan
df.fillna()
#Suchen Sie nach doppelten Zeilen
#Der Rückgabewert ist True, wenn er den Index überlappt, andernfalls False-Spalte
df.dupulicated()
keep = False #Wenn Sie nichts angeben, können Sie es nicht als Duplikat abrufen.
#Entfernen Sie vollständig doppelte Zeilen
df.drop_duplicates()
#Paar Grundstück
grr = pd.scatter_matrix(df)
#df sind die zu zeichnenden Daten
c= #Wert zu skalieren
figsize=(x,y) #Figurengröße
marker= #Markerform
hist_kwds={} #Histogrammeinstellungen
s= #Markergröße
alpha= #Transparenz
Recommended Posts