Ich werde ab heute über Pandas posten.
Eine Bibliothek für Datenbanken in Python.
Speziell Eine Bibliothek für den Umgang mit Datensätzen wie NumPy. NumPy kann Daten als mathematische Matrix behandeln und ist auf wissenschaftliche Berechnungen spezialisiert.
Pandas hingegen können Vorgänge ausführen, die mit gängigen Datenbanken ausgeführt werden können. Zusätzlich zu numerischen Werten können Sie problemlos Zeichenfolgendaten wie Name und Adresse verarbeiten.
Mit NumPy und Pandas können Daten effizient analysiert werden.
In Pandas gibt es zwei Arten von Datenstrukturen: Series und DataFrame.
DataFrame Es handelt sich um eine Datenstruktur, die hauptsächlich verwendet wird und durch eine zweidimensionale Tabelle dargestellt wird. Horizontale Daten werden als Zeile und vertikale Daten als Spalte bezeichnet.
Jede Zeile und jede Spalte ist beschriftet Die Zeilenbezeichnung ist der Index Spaltenbeschriftungen werden als Spalten bezeichnet.
Series Es ist ein eindimensionales Array, das als Zeile oder Spalte eines DataFrame betrachtet werden kann. Auch hier ist jedes Element beschriftet.
Der Index ist [0, 1, 2, 3, 4]. Außerdem sind die Spalten ["Präfektur", "Gebiet", "Bevölkerung", "Region"].
Serie ist Daten vom Wörterbuchtyp ({Schlüssel1: Wert1, Schlüssel2: Wert2, ...}) Beim Übergeben wird der Schlüssel in aufsteigender Reihenfolge sortiert.
#Seriendaten
import pandas as pd
fruits = {"orange": 2, "banana": 3}
print(pd.Series(fruits))
#Ausgabeergebnis
banana 3
orange 2
dtype: int64
#Ebenso wird DataFrame nach Schlüssel in aufsteigender Reihenfolge sortiert, wenn keine Spalten angegeben sind.
#Daten in DataFrame
import pandas as pd
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
"year": [2001, 2002, 2001, 2008, 2006],
"time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
print(df)
#Ausgabeergebnis
fruits time year
0 apple 1 2001
1 orange 4 2002
2 banana 5 2001
3 strawberry 6 2008
4 kiwifruit 3 2006
#Verwenden Sie zum Festlegen der Sortierreihenfolge Spalten als zweites Argument (siehe unten).=[aufführen]Angegeben.
import pandas as pd
df = pd.DataFrame(data, columns=["year", "time", "fruits"])
print(df)
#Ausgabeergebnis
year time fruits
0 2001 1 apple
1 2002 4 orange
2 2001 5 banana
3 2008 6 strawberry
4 2006 3 kiwifruit
Recommended Posts