Pandas grundlegende Zusammenfassung
Informationen zu Serien und DataFrame
Series
Was ist Serie? Eine Liste eindimensionaler Werte
Wenn ein Objekt vom Typ dikt in die Reihe gestellt wird, wird der Schlüssel als Index ausgedrückt.
data = {
"Name":"Jhon",
"Sex":"male",
"AGe":22
}
pd.Series(data)
>
Name Jhon
Sex male
AGe 22
dtype: object
Erstellen Sie Serien aus Numpy-Arrays
array = np.array([22,31,42,23])
age_series = pd.Series(array)
age_series
Geben Sie den Index im Array an und rufen Sie ihn nach Index auf
array = np.array(['John','male',22])
john_series = pd.Series(array,index = ['Name','Sex','Age'])
john_seiies["Name"]
>John
john_seiries
>
Name John
Sex male
Age 22
dtype: object
Holen Sie sich das ursprüngliche Numpy-Array
age_series.values.values
>array([22, 31, 42, 23])
DataFrame
Als Bild wird die Matrix selbst als Tabelle (Zeilenreihen, Spaltenreihen) behandelt, und die Kombination ähnelt einem DataFrame.
In der obigen Abbildung nur die Spalte Serie, Behandelt auch Serien in Zeilen
Erstellt aus Numpy Array
ndarray = np.arange(10).reshape(2,5)
ndarray
>
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]])
pd.DataFrame(ndarray,index = ["index1",'index2'] ,columns = ['a','b','c','d','e' ])
>
| a | b | c | d | e |
| index1 | 0 | 1 | 2 | 3 | 4 |
| index2 | 5 | 6 | 7 | 8 | 9 |
Grundablauf 1 Lesen Sie mit read_csv 2 Analysieren Sie grundlegende Dateninformationen
df = pd.read_csv("dataset/tmdb_5000_movies.csv")
# len()Überprüfen Sie die Anzahl der Daten mit
len(df)
Wenn Sie die Liste anzeigen möchten, ohne sie wegzulassen
#Colomu-Einschränkungen entfernen
pd.set_option('display.max_columns',None)
#Beseitigen Sie die Einschränkungen für Zeilen (alle Daten) (* Beachten Sie, dass es schwer sein wird)
pd.set_option('display.max_rows',None)
df.describe()
type(df) #beschreiben selbst kann als DataFrame behandelt werden
In Serie zurückgegeben
df["Spaltenname"]○ Empfohlen
df.Spaltenname ▲ Nicht empfohlen
Wird von DataFrame zurückgegeben
df[["revenue"]]
# Colum kann mehrfach ausgewählt werden
df[["revenue","original_title","budget"]]
#Geben Sie den Index einer bestimmten Zeile an und rufen Sie ihn ab
df.iloc[10:13]
#Geben Sie den Index einer bestimmten Zeile an und rufen Sie die angegebene Spalte ab
df.iloc[10:13]["original_title"]
Zeile / Spalte löschen
drop() #Der ursprüngliche Datenrahmen bleibt unverändert
Ändern Sie den ursprünglichen DataFrame mit inplace = True
<Löschen Sie bestimmte Linien auf einmal=0 (* standardmäßig angegeben)>
df.drop('id', (axis = 0) ,(inplace = True))
<Löschen Sie die angegebene Spaltenachse= 1>
df.drop('id', axis = 1,(inplace = True))
df = df.drop(5) #Eine Methode zum Aktualisieren der Originaldaten, die wichtiger ist als Inplace! Verwenden Sie die gleichen Variablen
dropna()Löschen Sie alle fehlenden Werte
np.isnan()Bestimmen Sie, ob es nan gibt (fehlender Wert)
fillna()Geben Sie fehlende Werte ein
>fillna(df["runtime"].mean())
Filter
So filtern Sie
#Beispiel) Ich möchte nur japanische Filme angeben
j_movie = df[df['original_language'] == 'ja'] #Diese Schreibweise wird grundsätzlich häufig verwendet
()&()Oder()|()Geben Sie mehrere Bedingungen mit ein
#Beispiel) Ich möchte nur japanische Filme mit einer Bewertung von 8 oder höher angeben.
j_movie = df[(df['original_language'] == 'ja') & (df["vote_average"] >= 8 ) ]
df[ (df['budget'] == 0 ) | (df['revenue'] == 0 ) ]
→ Filter: "Kein Budget oder Umsatz"
df[ ~ ((df['budget'] == 0 ) | (df['revenue'] == 0 )) ]
Filter: "Budget oder Umsatz ist nicht 0" (NICHT Berechnung ~)
Argument wie Optionen
df1 = pd.DataFrame({'key':["k0","k1","k2"],
'A':["a0","a1","a2"],
'B':["b0","b1","b2"]})
df2 = pd.DataFrame({'key':["k0","k1","k2"],
'C':["c0","c1","c2"],
'D':["d0","d1","d2"]})
Recommended Posts