Bei Pandas gibt es viele Operationen, an die man sich erinnern muss, deshalb möchte ich mich vorerst nur daran erinnern! Ich habe den Inhalt persönlich zusammengefasst.

Wenn Sie von nun an Pandas berühren wollen, beziehen Sie sich bitte darauf.

Serie / DataFrame / Panel

** Serie **: Repräsentiert eindimensionale Daten.
** DataFrame **: Repräsentiert zweidimensionale Daten.
** Panel **: Repräsentiert 3D-Daten.

In der Mathematik ist der Vektor Serie und die Matrix DataFrame.

Wenn das Programm über pd.DataFrame () verfügt, kann es als "Ich erstelle zweidimensionale Daten" interpretiert werden.

Grundlegende Funktionsweise der Erzeugung

Der Import erfolgt wie folgt.

`test.py`


import pandas as pd

Im gesamten folgenden Code werden Importpandas als pd weggelassen, aber als importiert betrachtet.

Lassen Sie uns zuerst eine Serie erstellen.

`test.py`


cp = [100,200,300,400]
print(pd.Series(cp))
# 0    100
# 1    200
# 2    300
# 3    400
# dtype: int64

Im Gegensatz zur Liste wird der Index bei der Ausgabe automatisch hinzugefügt. Sie können diesen Index auch selbst definieren.

`test.py`


cp = [100,200,300,400]
cp_index = ["Jan","Feb","Mar","Apr"]
print(pd.Series(cp, index=cp_index))
# Jan    100
# Feb    200
# Mar    300
# Apr    400
# dtype: int64

Erstellen Sie als Nächstes einen DataFrame.

`test.py`


cp = {
	"a": [400,300,200,100],
	"b": [100,200,300,400]
}
cp_index = ["Jan","Feb","Mar","Apr"]
print(pd.DataFrame(cp, index=cp_index))
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300
# Apr  100  400

DataFrame ist zu einer Tabelle geworden, die Sie häufig in Excel sehen.

In DataFrame werden nicht nur der Index, sondern auch die Spalten (a und b) angegeben. Daher wird die Variable cp durch das Wörterbuch definiert.

Sie können auch Folgendes tun:

`test.py`


df=pd.DataFrame([[400,100],
              [300,200],
              [200,300],
              [100,400]],
              index=['Jan', 'Feb','Mar','Apr'],
              columns=["a","b"])
print(df)
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300
# Apr  100  400

In der Realität lesen Sie jedoch häufig die CSV-Datei, anstatt die Daten selbst zu schreiben.

Ich werde Ihnen also zeigen, wie Sie Daten aus einer CSV-Datei lesen.

`sample.csv`


,a,b
Jan,400,100
Feb,300,200
Mar,200,300
Apr,100,400

Verwenden Sie read_csv (), um die CSV-Datei zu lesen.

`test.py`


df=pd.read_csv("sample.csv",index_col=[0])
print(df)
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300
# Apr  100  400

Geben Sie in index_col die Anzahl der Spalten an, die als Listentyp indiziert werden sollen.

Grundlegende Extraktionsoperation

Im folgenden Quellcode verwendet df dasselbe wie oben.

↓ Wenn Sie 3 Zeilen von oben extrahieren möchten

`test.py`


print(df.head(3))
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300

↓ Extrahieren Sie durch Angabe einer Spalte

`test.py`


print(df["a"])
# Jan    400
# Feb    300
# Mar    200
# Apr    100
# Name: a, dtype: int64

↓ Geben Sie den Index als Slice an und extrahieren Sie ihn

`test.py`


print(df[1:3])
#        a    b
# Feb  300  200
# Mar  200  300

Unterschied zwischen loc, iloc und ix

Beim Extrahieren aus einem DataFrame werden häufig loc, iloc, ix verwendet. Alle haben die gleiche Funktion "Extrahieren durch Angabe von Zeilen und Spalten".

Was ist der Unterschied?

loc

loc gibt Zeilen und Spalten mit dem Namen ** label ** an.

`test.py`


print(df.loc[["Feb","Mar"]])
#        a    b
# Feb  300  200
# Mar  200  300

print(df.loc[:,["a"]])
#        a
# Jan  400
# Feb  300
# Mar  200
# Apr  100

Der Doppelpunkt in df.loc [:, ["a"]] bedeutet übrigens "alle Zeilen extrahieren".

iloc

iloc gibt Zeilen und Spalten durch ** Nummer ** an.

`test.py`


print(df.iloc[[1,3]])
#        a    b
# Feb  300  200
# Apr  100  400

print(df.iloc[:,[0]])
#        a
# Jan  400
# Feb  300
# Mar  200
# Apr  100

print(df.iloc[[1,3],[0]])
#        a
# Feb  300
# Apr  100

print(df.iloc[1:3])
#        a    b
# Feb  300  200
# Mar  200  300

Ist ich in iloc i in integer?

Für ix können Sie die Zeile und Spalte nach dem Namen der Bezeichnung oder nach der Nummer angeben.

Wenn der Index oder die Spalte jedoch ein ganzzahliger Typ ist, kommt es zu Verwirrung und Verwirrung. Daher scheint es besser, loc und iloc ordnungsgemäß zu verwenden, ohne ix zu verwenden.

Andere Prozesse, die wahrscheinlich verwendet werden

Hier sind einige der Prozesse, die wahrscheinlich persönlich verwendet werden.

`test.py`


#Geben Sie Bedingungen an, um den Inhalt von DataFrame auf True und False zu setzen
print(df >= 300)
#        a       b
# Jan  True   False
# Feb  True   False
# Mar  False   True
# Apr  False   True

#Machen Sie eine Zahl unter 300 NaN
print(df[df >= 300])
#       a     b
# Jan  400   NaN
# Feb  300   NaN
# Mar  NaN   300
# Apr  NaN   400

#Füllen Sie den fehlenden Wert NaN mit 0
print(df[df >= 300].fillna(0))
#       a     b
# Jan  400    0
# Feb  300    0
# Mar   0    300
# Apr   0    400

#Speichern Sie den fehlenden Wert NaN als Durchschnittswert für jede Spalte
print(df[df >= 300].fillna(df.mean()))
#       a     b
# Jan  400   250
# Feb  300   250
# Mar  250   300
# Apr  250   400

Am Ende

Bevor Sie ernsthaft studieren, ist das alles! Ich habe das zusammengefasst.

Ich glaube, ich habe mich daran erinnert und es schließlich am Ausgangspunkt eingerichtet.

Ich bin auch ein Anfänger in Pandas, also werde ich mein Bestes geben, um zu lernen ...

[PYTHON] Erste Schritte mit Pandas: Grundkenntnisse, an die Sie sich zuerst erinnern sollten

Serie / DataFrame / Panel

Grundlegende Funktionsweise der Erzeugung

test.py

test.py

test.py

test.py

test.py

sample.csv

test.py

Grundlegende Extraktionsoperation

test.py

test.py

test.py

Unterschied zwischen loc, iloc und ix

test.py

test.py

Andere Prozesse, die wahrscheinlich verwendet werden

test.py

Am Ende

`test.py`

`test.py`

`test.py`

`test.py`

`test.py`

`sample.csv`

`test.py`

`test.py`

`test.py`

`test.py`

`test.py`

`test.py`

`test.py`