[PYTHON] Erste Schritte mit Pandas: Grundkenntnisse, an die Sie sich zuerst erinnern sollten

Bei Pandas gibt es viele Operationen, an die man sich erinnern muss, deshalb möchte ich mich vorerst nur daran erinnern! Ich habe den Inhalt persönlich zusammengefasst.

Wenn Sie von nun an Pandas berühren wollen, beziehen Sie sich bitte darauf.

Serie / DataFrame / Panel

In der Mathematik ist der Vektor Serie und die Matrix DataFrame.

Wenn das Programm über pd.DataFrame () verfügt, kann es als "Ich erstelle zweidimensionale Daten" interpretiert werden.

Grundlegende Funktionsweise der Erzeugung

Der Import erfolgt wie folgt.

test.py


import pandas as pd

Im gesamten folgenden Code werden Importpandas als pd weggelassen, aber als importiert betrachtet.

Lassen Sie uns zuerst eine Serie erstellen.

test.py


cp = [100,200,300,400]
print(pd.Series(cp))
# 0    100
# 1    200
# 2    300
# 3    400
# dtype: int64

Im Gegensatz zur Liste wird der Index bei der Ausgabe automatisch hinzugefügt. Sie können diesen Index auch selbst definieren.

test.py


cp = [100,200,300,400]
cp_index = ["Jan","Feb","Mar","Apr"]
print(pd.Series(cp, index=cp_index))
# Jan    100
# Feb    200
# Mar    300
# Apr    400
# dtype: int64

Erstellen Sie als Nächstes einen DataFrame.

test.py


cp = {
	"a": [400,300,200,100],
	"b": [100,200,300,400]
}
cp_index = ["Jan","Feb","Mar","Apr"]
print(pd.DataFrame(cp, index=cp_index))
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300
# Apr  100  400

DataFrame ist zu einer Tabelle geworden, die Sie häufig in Excel sehen.

In DataFrame werden nicht nur der Index, sondern auch die Spalten (a und b) angegeben. Daher wird die Variable cp durch das Wörterbuch definiert.

Sie können auch Folgendes tun:

test.py


df=pd.DataFrame([[400,100],
              [300,200],
              [200,300],
              [100,400]],
              index=['Jan', 'Feb','Mar','Apr'],
              columns=["a","b"])
print(df)
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300
# Apr  100  400

In der Realität lesen Sie jedoch häufig die CSV-Datei, anstatt die Daten selbst zu schreiben.

Ich werde Ihnen also zeigen, wie Sie Daten aus einer CSV-Datei lesen.

sample.csv


,a,b
Jan,400,100
Feb,300,200
Mar,200,300
Apr,100,400

Verwenden Sie read_csv (), um die CSV-Datei zu lesen.

test.py


df=pd.read_csv("sample.csv",index_col=[0])
print(df)
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300
# Apr  100  400

Geben Sie in index_col die Anzahl der Spalten an, die als Listentyp indiziert werden sollen.

Grundlegende Extraktionsoperation

Im folgenden Quellcode verwendet df dasselbe wie oben.

↓ Wenn Sie 3 Zeilen von oben extrahieren möchten

test.py


print(df.head(3))
#        a    b
# Jan  400  100
# Feb  300  200
# Mar  200  300

↓ Extrahieren Sie durch Angabe einer Spalte

test.py


print(df["a"])
# Jan    400
# Feb    300
# Mar    200
# Apr    100
# Name: a, dtype: int64

↓ Geben Sie den Index als Slice an und extrahieren Sie ihn

test.py


print(df[1:3])
#        a    b
# Feb  300  200
# Mar  200  300

Unterschied zwischen loc, iloc und ix

Beim Extrahieren aus einem DataFrame werden häufig loc, iloc, ix verwendet. Alle haben die gleiche Funktion "Extrahieren durch Angabe von Zeilen und Spalten".

Was ist der Unterschied?

loc

loc gibt Zeilen und Spalten mit dem Namen ** label ** an.

test.py


print(df.loc[["Feb","Mar"]])
#        a    b
# Feb  300  200
# Mar  200  300

print(df.loc[:,["a"]])
#        a
# Jan  400
# Feb  300
# Mar  200
# Apr  100

Der Doppelpunkt in df.loc [:, ["a"]] bedeutet übrigens "alle Zeilen extrahieren".

iloc

iloc gibt Zeilen und Spalten durch ** Nummer ** an.

test.py


print(df.iloc[[1,3]])
#        a    b
# Feb  300  200
# Apr  100  400

print(df.iloc[:,[0]])
#        a
# Jan  400
# Feb  300
# Mar  200
# Apr  100

print(df.iloc[[1,3],[0]])
#        a
# Feb  300
# Apr  100

print(df.iloc[1:3])
#        a    b
# Feb  300  200
# Mar  200  300

Ist ich in iloc i in integer?

ix

Für ix können Sie die Zeile und Spalte nach dem Namen der Bezeichnung oder nach der Nummer angeben.

Wenn der Index oder die Spalte jedoch ein ganzzahliger Typ ist, kommt es zu Verwirrung und Verwirrung. Daher scheint es besser, loc und iloc ordnungsgemäß zu verwenden, ohne ix zu verwenden.

Andere Prozesse, die wahrscheinlich verwendet werden

Hier sind einige der Prozesse, die wahrscheinlich persönlich verwendet werden.

test.py


#Geben Sie Bedingungen an, um den Inhalt von DataFrame auf True und False zu setzen
print(df >= 300)
#        a       b
# Jan  True   False
# Feb  True   False
# Mar  False   True
# Apr  False   True

#Machen Sie eine Zahl unter 300 NaN
print(df[df >= 300])
#       a     b
# Jan  400   NaN
# Feb  300   NaN
# Mar  NaN   300
# Apr  NaN   400

#Füllen Sie den fehlenden Wert NaN mit 0
print(df[df >= 300].fillna(0))
#       a     b
# Jan  400    0
# Feb  300    0
# Mar   0    300
# Apr   0    400

#Speichern Sie den fehlenden Wert NaN als Durchschnittswert für jede Spalte
print(df[df >= 300].fillna(df.mean()))
#       a     b
# Jan  400   250
# Feb  300   250
# Mar  250   300
# Apr  250   400

Am Ende

Bevor Sie ernsthaft studieren, ist das alles! Ich habe das zusammengefasst.

Ich glaube, ich habe mich daran erinnert und es schließlich am Ausgangspunkt eingerichtet.

Ich bin auch ein Anfänger in Pandas, also werde ich mein Bestes geben, um zu lernen ...

Recommended Posts

Erste Schritte mit Pandas: Grundkenntnisse, an die Sie sich zuerst erinnern sollten
Erste Schritte mit Python3 # 1 Grundkenntnisse erlernen
Materialien zum Lesen, wenn Sie mit Python beginnen
Erste Schritte mit Android!
Konvertieren Sie 202003 bis 2020-03 mit Pandas
Erste Schritte mit apache2
Erste Schritte mit Python
Erste Schritte mit Django 1
Einführung in die Optimierung
Erste Schritte mit Numpy
Erste Schritte mit Spark
Erste Schritte mit Python
Erste Schritte mit Pydantic
Erste Schritte mit Jython
Erste Schritte mit Django 2
Materialien zum Lesen, wenn Sie mit Apache Beam beginnen
Einführung in Python-Funktionen
Einführung in Tkinter 2: Button
Erste Schritte mit Go Assembly
Erste Schritte mit PKI mit Golang ―― 4
Erste Schritte mit Python Django (1)
Erste Schritte mit Python Django (4)
Erste Schritte mit Python Django (3)
Einführung in Python Django (6)
Erste Schritte mit Django mit PyCharm
Erste Schritte mit Python Django (5)
Mindestkenntnisse, um mit dem Python-Protokollierungsmodul zu beginnen
Erste Schritte mit Poetry Von der Installation über die Ausführung bis hin zur Versionsverwaltung
Erste Schritte mit Python Responder v2
Link, um mit Python zu beginnen
Einführung in Git (1) History-Speicher
Erste Schritte mit Sphinx. Generieren Sie Docstring mit Sphinx
Erste Schritte mit Python-Webanwendungen
Erste Schritte mit Python für PHPer-Klassen
Erste Schritte mit Sparse Matrix mit scipy.sparse
Erste Schritte mit Julia für Pythonista
Dateningenieure lernen DevOps im Hinblick auf MLOps. ① Erste Schritte
Erste Schritte mit Python Grundlagen von Python
Wie fange ich mit Scrapy an?
Erste Schritte mit Python
Erste Schritte zur Lösung linearer Planungsprobleme mit PuLP
Wie fange ich mit Django an?
1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)
Erste Schritte mit der Cisco Spark REST-API
Beginnend mit USD unter Windows
Ich möchte ○○ mit Pandas machen
Erste Schritte mit genetischen Python-Algorithmen
Erste Schritte mit Python 3.8 unter Windows
Erste Schritte mit Python für PHPer-Funktionen
Erste Schritte mit der CPU-Diebstahlzeit
[Python] Um mit Python zu beginnen, müssen Sie zunächst sicherstellen, dass Sie Python ordnungsgemäß verwenden können.
Schritt Notizen, um mit Django zu beginnen
Python nur mit Hallo, Welten zu erinnern
Erste Schritte mit Python Web Scraping Practice
Ich habe versucht, mit Hy anzufangen