Ich werde ab heute über Pandas posten.

Was ist Pandas?

Eine Bibliothek für Datenbanken in Python.

Speziell Eine Bibliothek für den Umgang mit Datensätzen wie NumPy. NumPy kann Daten als mathematische Matrix behandeln und ist auf wissenschaftliche Berechnungen spezialisiert.

Pandas hingegen können Vorgänge ausführen, die mit gängigen Datenbanken ausgeführt werden können. Zusätzlich zu numerischen Werten können Sie problemlos Zeichenfolgendaten wie Name und Adresse verarbeiten.

Mit NumPy und Pandas können Daten effizient analysiert werden.

Zwei Arten von Datenstrukturen

In Pandas gibt es zwei Arten von Datenstrukturen: Series und DataFrame.

DataFrame Es handelt sich um eine Datenstruktur, die hauptsächlich verwendet wird und durch eine zweidimensionale Tabelle dargestellt wird. Horizontale Daten werden als Zeile und vertikale Daten als Spalte bezeichnet.

Jede Zeile und jede Spalte ist beschriftet Die Zeilenbezeichnung ist der Index Spaltenbeschriftungen werden als Spalten bezeichnet.

Series Es ist ein eindimensionales Array, das als Zeile oder Spalte eines DataFrame betrachtet werden kann. Auch hier ist jedes Element beschriftet.

Beispiel einer Datenstruktur

Der Index ist [0, 1, 2, 3, 4]. Außerdem sind die Spalten ["Präfektur", "Gebiet", "Bevölkerung", "Region"].

Überprüfen von Serien- und DataFrame-Daten

Serie ist Daten vom Wörterbuchtyp ({Schlüssel1: Wert1, Schlüssel2: Wert2, ...}) Beim Übergeben wird der Schlüssel in aufsteigender Reihenfolge sortiert.

#Seriendaten

import pandas as pd

fruits = {"orange": 2, "banana": 3}
print(pd.Series(fruits))
#Ausgabeergebnis
banana    3
orange    2
dtype: int64
#Ebenso wird DataFrame nach Schlüssel in aufsteigender Reihenfolge sortiert, wenn keine Spalten angegeben sind.

#Daten in DataFrame

import pandas as pd

data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
print(df)
#Ausgabeergebnis
       fruits  time  year
0       apple     1  2001
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006
#Verwenden Sie zum Festlegen der Sortierreihenfolge Spalten als zweites Argument (siehe unten).=[aufführen]Angegeben.

import pandas as pd
df = pd.DataFrame(data, columns=["year", "time", "fruits"])
print(df)
#Ausgabeergebnis
   year  time      fruits
0  2001     1       apple
1  2002     4      orange
2  2001     5      banana
3  2008     6  strawberry
4  2006     3   kiwifruit

Python-Anwendung: Pandas Teil 1: Basic

Was ist Pandas?

Zwei Arten von Datenstrukturen

Beispiel einer Datenstruktur

Überprüfen von Serien- und DataFrame-Daten