import pandas as pd
# Zeige die ersten 5 Zeilen
print(df.head(5))
# Zeigen Sie die letzten 5 Zeilen an
print(df.tail(5))
DataFrame
# Datenrahmen leeren
df = pd.DataFrame(index=[], columns=[])
df = pd.DataFrame(index=[], columns=range(15))
df = pd.DataFrame (0, Index = Bereich (4), Spalten = Bereich (15)) Füllen Sie mit # 0
# Erstellen Sie einen leeren Datenrahmen aus einem vorhandenen Datenrahmen
df_blank = df.iloc[0:0]
# Ersetzen Sie Spaltennamen durch Seriennummern (da die Verarbeitung mit for einfach ist).
df.columns=list(range(len(df.columns)))
# Ersetzen Sie Spaltennamen durch Alphabete (da die Zuordnung zu Excel einfach ist).
df.columns=([chr(ord('A') + i) for i in range(26)]+["AA"]+["AB"])
# Index von 0 neu zuweisen
df=df.reset_index()
# Index von 1 neu zuweisen (da es einfach ist, ihn mit Excel abzugleichen)
df.index = df.index + 1
# Weisen Sie anderen Zeilen als dem Index Seriennummern zu
serial_num = pd.RangeIndex(start=0, stop=len(df.index) , step=1)
df['No'] = serial_num
df['A']
df=df[["F","Z"]]
# Nur beliebige Spalten anzeigen
df [['Spaltenname']]
# Zeilen 1, 2 und 4
df.iloc[[1,2,4]]
# 0-2. Spalte
df.iloc[[0,2]]
# Wenn Sie keine Spalte angeben, wird die Spalte hinzugefügt.
df['job'] = ["Engineer"]
df ['new_column'] = 0 # Füllen Sie den Anfangswert mit 0 und fügen Sie hinzu
df=df[df['A'] > 450]
df=df[df['A']=='P1']
# Geben Sie mehrere Bedingungen an
[Hinweis] Ein Fehler tritt auf, wenn nicht (&, |, ~) anstelle von (und oder oder nicht) verwendet wird.
[Hinweis] Bei Verwendung des Vergleichsoperators tritt ein Fehler auf, sofern die Bedingungen nicht in Klammern angegeben sind.
df=df[(df['D']==0.0) | (df['D']==0.1)]
x=0 → y x<>0 →x
dfsum["z"]=dfsum["y"].where(dfsum["x"] ==0, dfsum["x"])
# Auswechslung
gf2 ["Trefferquote"] = gf2 ['Treffer'] / gf2 ['Anzahl der Treffer']
# Konvertieren Sie y in Verkäufe
df.rename(columns={'y': 'sales'}, inplace=True)
df.columns = ['year_orig', 'pop', 'rate', '%']
df.drop (5) # Zeile 5 löschen
df.drop ([5,6]) # Zeilen 5,6 löschen
df.drop(['remarks'], axis=1, inplace=True)
# Beseitigen Sie doppelte Spalteninhalte
df = set (Spalte df2.A)
df['A'].apply(lambda x: x * 2) #=A1*2
df ['A']. Übernehmen (Lambda x: 1, wenn x> 0, sonst 0) #IF (A1> 0,1,0)
# Wenn expand = True, wird es in zwei Teile geteilt, wenn nicht, wird es im Listenformat aufgeteilt.
print(df['a'].str[:2],expand=True)
# Anfangs vom Typ Objekt
df=df.astype(float)
df1["G"]=df1["G"].astype(int)
Möglichkeit | Erläuterung |
---|---|
inplace=True | Es wird eine destruktive Änderung sein, und auch die Originaldaten werden sich ändern |
[Hinweis] Da es bei 0 beginnt, wird es zu Excel-Zeile 1.
# Extrahieren Sie Zeilen für einen bestimmten Abschnitt
df[1:3]
# Extrahieren Sie nur 100 Zeilen
df.loc[100]
# Auszug aus Zeile 100 bis Zeile 105
df[100:106]
# Extrahieren Sie nur die ersten 10 Zeilen
df[:10]
Wenn Sie keine Zeile angeben, wird die Zeile hinzugefügt.
df.loc['ONE'] = 0
# Mehrwert für jede Zeile
df.loc['FIVE'] = ['A5', 'B5', 'C5']
# Entfernen Sie doppelte Zeilen
df=df.drop(range(0,3))
df.drop(range(0,3),inplace=True )
df['col1'] = df['col1'].str.replace('x', 'z')
# Vertikale Verbindung
df=pd.concat([df, df1])
# Horizontale Verbindung
df=pd.concat([df, df1], axis=1)
[Hinweis] Wenn der Index unterschiedlich ist, wird er nicht direkt daneben kombiniert. Wenn Sie ihn also direkt daneben platzieren möchten, weisen Sie den Index neu zu.
dfsum = pd.merge (dfsum, gf2, on = 'key', how = "Outer")
gf = df3.groupby ('Spielername')
gf1 = gf.agg ({'Heimatbasis': max, 'Basis stehlen': 'max', 'Blasrate': 'max'})
gf1=gf1.reset_index()
# Auswechslung
df.loc[99,0] ='▲'
df.loc[:, 2:8] = 0
[Hinweis] SettingWithCopyWarning kann auftreten, wenn df.loc [99] [0] geschrieben wird (verkettete Indizierung). Der Wert ändert sich nicht
df.sort_values(['sales', 'temperature'], ascending=False)
sorted(df)
Möglichkeit | Erläuterung |
---|---|
ascending=True | absteigende Reihenfolge |
ascending=False | aufsteigende Reihenfolge |
# Liste → DataFrame
pd.DataFrame(data=list)
# Datenteil → Liste
s = pd.Series([0, 1, 2])
print(s)
0 0
1 1
2 2
dtype: int64
list= s.values.tolist()
# Zeigen Sie keine Spalten und Indizes an
print(df.to_string(index=False, header=False))
df = pd.read_excel('sample.xlsx',sheet_name='sheet1')
Möglichkeit | Erläuterung |
---|---|
sheet_name="" | Geben Sie den Blattnamen an |
header=None | Wenn angegeben, lesen Sie ohne Header |
Wenn nicht angegeben, wird die erste Zeile automatisch als Spaltenname eingefügt. | |
header=2 | Lesen Sie die angegebene Zeile als Kopfzeile. Vorherige Zeilen werden ignoriert. Zeile 0 beginnt ab diesem Punkt |
df.to_excel('sample.xlsx',sheet_name='sheet1', encoding='cp932',index=False, header=False)
Möglichkeit | Erläuterung |
---|---|
sheet_name="" | Geben Sie den Blattnamen an |
index=False | Zeilenname löschen und exportieren |
header=False | Spaltennamen löschen und exportieren |
df=pd.read_csv("sample.csv",encoding="cp932",header=None)
df=pd.read_csv("sample.csv",encoding="shift_jis")
df1=pd.read_csv(sample.csv,encoding='cp932',names=col_names,low_memory=False )
[Hinweis] Wenn die Windows-Erweiterungszeichenfolge gemischt ist, muss der Zeichencode als cp932 festgelegt werden. [Hinweis] Geben Sie beim Lesen einer schweren Datei low_memory = False ein.
df.to_csv('sample.csv',encoding='cp932')
df=pd.read_csv("sample.DAT",encoding='cp932', sep='\t',names=col_names )
df=pd.read_table("sample.DAT",encoding='cp932',header=None)
df.to_csv("employee.csv", sep=",")
# Ersetzen Sie NaN in Spalte A durch '0.0'
df.fillna(value={'A': 0.0}, inplace=True)
# Löschen Sie die Zeile mit NaN in Spalte A.
df.dropna(subset=[A], axis=0, inplace=True)
# Ersetzen Sie '-' in Spalte A durch 0
df['A'] = df['A'].replace('--', 0).astype(float)
# Füllen Sie NaN mit dem Wert in der oberen Zelle
df=df.fillna(method='ffill')
import matplotlib.pyplot as plt
Es fühlt sich gut an, den Plotstil wie folgt zu ändern
plt.style.use('ggplot')
Notation | Details der Bedienung |
---|---|
plt.title('Graphentitel') | Titel einstellen |
plt.xlabel('X-Achsenbeschriftung') | Stellen Sie den Namen der x-Achse ein |
plt.ylabel('Beschriftung der Y-Achse') | Stellen Sie den Namen der y-Achse ein |
plt.xlim(Mindestwert von X.,Maximalwert von X.) | Geben Sie den x-Achsenbereich an |
plt.ylim(Mindestwert von Y.,Maximalwert von Y.) | Geben Sie den Bereich der y-Achse an |
plt.legend() | Legende anzeigen |
plt.grid() | Gitterlinien anzeigen |