Bei Pandas gibt es viele Operationen, an die man sich erinnern muss, deshalb möchte ich mich vorerst nur daran erinnern! Ich habe den Inhalt persönlich zusammengefasst.
Wenn Sie von nun an Pandas berühren wollen, beziehen Sie sich bitte darauf.
In der Mathematik ist der Vektor Serie und die Matrix DataFrame.
Wenn das Programm über pd.DataFrame () verfügt, kann es als "Ich erstelle zweidimensionale Daten" interpretiert werden.
Der Import erfolgt wie folgt.
test.py
import pandas as pd
Im gesamten folgenden Code werden Importpandas als pd weggelassen, aber als importiert betrachtet.
Lassen Sie uns zuerst eine Serie erstellen.
test.py
cp = [100,200,300,400]
print(pd.Series(cp))
# 0 100
# 1 200
# 2 300
# 3 400
# dtype: int64
Im Gegensatz zur Liste wird der Index bei der Ausgabe automatisch hinzugefügt. Sie können diesen Index auch selbst definieren.
test.py
cp = [100,200,300,400]
cp_index = ["Jan","Feb","Mar","Apr"]
print(pd.Series(cp, index=cp_index))
# Jan 100
# Feb 200
# Mar 300
# Apr 400
# dtype: int64
Erstellen Sie als Nächstes einen DataFrame.
test.py
cp = {
"a": [400,300,200,100],
"b": [100,200,300,400]
}
cp_index = ["Jan","Feb","Mar","Apr"]
print(pd.DataFrame(cp, index=cp_index))
# a b
# Jan 400 100
# Feb 300 200
# Mar 200 300
# Apr 100 400
DataFrame ist zu einer Tabelle geworden, die Sie häufig in Excel sehen.
In DataFrame werden nicht nur der Index, sondern auch die Spalten (a und b) angegeben. Daher wird die Variable cp durch das Wörterbuch definiert.
Sie können auch Folgendes tun:
test.py
df=pd.DataFrame([[400,100],
[300,200],
[200,300],
[100,400]],
index=['Jan', 'Feb','Mar','Apr'],
columns=["a","b"])
print(df)
# a b
# Jan 400 100
# Feb 300 200
# Mar 200 300
# Apr 100 400
In der Realität lesen Sie jedoch häufig die CSV-Datei, anstatt die Daten selbst zu schreiben.
Ich werde Ihnen also zeigen, wie Sie Daten aus einer CSV-Datei lesen.
sample.csv
,a,b
Jan,400,100
Feb,300,200
Mar,200,300
Apr,100,400
Verwenden Sie read_csv (), um die CSV-Datei zu lesen.
test.py
df=pd.read_csv("sample.csv",index_col=[0])
print(df)
# a b
# Jan 400 100
# Feb 300 200
# Mar 200 300
# Apr 100 400
Geben Sie in index_col die Anzahl der Spalten an, die als Listentyp indiziert werden sollen.
Im folgenden Quellcode verwendet df dasselbe wie oben.
↓ Wenn Sie 3 Zeilen von oben extrahieren möchten
test.py
print(df.head(3))
# a b
# Jan 400 100
# Feb 300 200
# Mar 200 300
↓ Extrahieren Sie durch Angabe einer Spalte
test.py
print(df["a"])
# Jan 400
# Feb 300
# Mar 200
# Apr 100
# Name: a, dtype: int64
↓ Geben Sie den Index als Slice an und extrahieren Sie ihn
test.py
print(df[1:3])
# a b
# Feb 300 200
# Mar 200 300
Beim Extrahieren aus einem DataFrame werden häufig loc, iloc, ix verwendet. Alle haben die gleiche Funktion "Extrahieren durch Angabe von Zeilen und Spalten".
Was ist der Unterschied?
loc
loc gibt Zeilen und Spalten mit dem Namen ** label ** an.
test.py
print(df.loc[["Feb","Mar"]])
# a b
# Feb 300 200
# Mar 200 300
print(df.loc[:,["a"]])
# a
# Jan 400
# Feb 300
# Mar 200
# Apr 100
Der Doppelpunkt in df.loc [:, ["a"]] bedeutet übrigens "alle Zeilen extrahieren".
iloc
iloc gibt Zeilen und Spalten durch ** Nummer ** an.
test.py
print(df.iloc[[1,3]])
# a b
# Feb 300 200
# Apr 100 400
print(df.iloc[:,[0]])
# a
# Jan 400
# Feb 300
# Mar 200
# Apr 100
print(df.iloc[[1,3],[0]])
# a
# Feb 300
# Apr 100
print(df.iloc[1:3])
# a b
# Feb 300 200
# Mar 200 300
Ist ich in iloc i in integer?
ix
Für ix können Sie die Zeile und Spalte nach dem Namen der Bezeichnung oder nach der Nummer angeben.
Wenn der Index oder die Spalte jedoch ein ganzzahliger Typ ist, kommt es zu Verwirrung und Verwirrung. Daher scheint es besser, loc und iloc ordnungsgemäß zu verwenden, ohne ix zu verwenden.
Hier sind einige der Prozesse, die wahrscheinlich persönlich verwendet werden.
test.py
#Geben Sie Bedingungen an, um den Inhalt von DataFrame auf True und False zu setzen
print(df >= 300)
# a b
# Jan True False
# Feb True False
# Mar False True
# Apr False True
#Machen Sie eine Zahl unter 300 NaN
print(df[df >= 300])
# a b
# Jan 400 NaN
# Feb 300 NaN
# Mar NaN 300
# Apr NaN 400
#Füllen Sie den fehlenden Wert NaN mit 0
print(df[df >= 300].fillna(0))
# a b
# Jan 400 0
# Feb 300 0
# Mar 0 300
# Apr 0 400
#Speichern Sie den fehlenden Wert NaN als Durchschnittswert für jede Spalte
print(df[df >= 300].fillna(df.mean()))
# a b
# Jan 400 250
# Feb 300 250
# Mar 250 300
# Apr 250 400
Bevor Sie ernsthaft studieren, ist das alles! Ich habe das zusammengefasst.
Ich glaube, ich habe mich daran erinnert und es schließlich am Ausgangspunkt eingerichtet.
Ich bin auch ein Anfänger in Pandas, also werde ich mein Bestes geben, um zu lernen ...
Recommended Posts