[PYTHON] Pandas Grundlagen

Pandas grundlegende Zusammenfassung

Informationen zu Serien und DataFrame

Series

Was ist Serie? Eine Liste eindimensionaler Werte

series_spreadsheet.png

Wenn ein Objekt vom Typ dikt in die Reihe gestellt wird, wird der Schlüssel als Index ausgedrückt.

data = {
    "Name":"Jhon",
    "Sex":"male",
    "AGe":22
}
pd.Series(data)
>
Name    Jhon
Sex     male
AGe       22
dtype: object

Erstellen Sie Serien aus Numpy-Arrays

array = np.array([22,31,42,23])
age_series = pd.Series(array)
age_series

Geben Sie den Index im Array an und rufen Sie ihn nach Index auf

array = np.array(['John','male',22])
john_series = pd.Series(array,index = ['Name','Sex','Age'])
john_seiies["Name"]
>John

john_seiries
>
Name    John
Sex     male
Age       22
dtype: object

Holen Sie sich das ursprüngliche Numpy-Array

age_series.values.values 
>array([22, 31, 42, 23])

DataFrame

Als Bild wird die Matrix selbst als Tabelle (Zeilenreihen, Spaltenreihen) behandelt, und die Kombination ähnelt einem DataFrame.

unnamed.png

In der obigen Abbildung nur die Spalte Serie, Behandelt auch Serien in Zeilen

Erstellt aus Numpy Array

ndarray = np.arange(10).reshape(2,5)
ndarray
>
array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

pd.DataFrame(ndarray,index = ["index1",'index2'] ,columns = ['a','b','c','d','e' ])
>
         | a | b | c | d | e |
| index1 | 0 | 1 | 2 | 3 | 4 |
| index2 | 5 | 6 | 7 | 8 | 9 |

Grundablauf 1 Lesen Sie mit read_csv 2 Analysieren Sie grundlegende Dateninformationen

df = pd.read_csv("dataset/tmdb_5000_movies.csv")
# len()Überprüfen Sie die Anzahl der Daten mit
len(df) 

Wenn Sie die Liste anzeigen möchten, ohne sie wegzulassen

#Colomu-Einschränkungen entfernen
pd.set_option('display.max_columns',None)

#Beseitigen Sie die Einschränkungen für Zeilen (alle Daten) (* Beachten Sie, dass es schwer sein wird)
pd.set_option('display.max_rows',None)
df.describe()
type(df)  #beschreiben selbst kann als DataFrame behandelt werden

DataFrame-Operationen

In Serie zurückgegeben

df["Spaltenname"]○ Empfohlen
df.Spaltenname ▲ Nicht empfohlen

Wird von DataFrame zurückgegeben

df[["revenue"]]

# Colum kann mehrfach ausgewählt werden
df[["revenue","original_title","budget"]]
#Geben Sie den Index einer bestimmten Zeile an und rufen Sie ihn ab
df.iloc[10:13]

#Geben Sie den Index einer bestimmten Zeile an und rufen Sie die angegebene Spalte ab
df.iloc[10:13]["original_title"]

Zeile / Spalte löschen

drop() #Der ursprüngliche Datenrahmen bleibt unverändert

Ändern Sie den ursprünglichen DataFrame mit inplace = True


<Löschen Sie bestimmte Linien auf einmal=0 (* standardmäßig angegeben)>
df.drop('id', (axis = 0) ,(inplace = True))  

<Löschen Sie die angegebene Spaltenachse= 1>
df.drop('id', axis = 1,(inplace = True))  

df = df.drop(5) #Eine Methode zum Aktualisieren der Originaldaten, die wichtiger ist als Inplace! Verwenden Sie die gleichen Variablen

dropna()Löschen Sie alle fehlenden Werte

np.isnan()Bestimmen Sie, ob es nan gibt (fehlender Wert)

fillna()Geben Sie fehlende Werte ein
>fillna(df["runtime"].mean())

Filter

So filtern Sie
#Beispiel) Ich möchte nur japanische Filme angeben
j_movie = df[df['original_language'] == 'ja'] #Diese Schreibweise wird grundsätzlich häufig verwendet


()&()Oder()|()Geben Sie mehrere Bedingungen mit ein
#Beispiel) Ich möchte nur japanische Filme mit einer Bewertung von 8 oder höher angeben.
j_movie = df[(df['original_language'] == 'ja') & (df["vote_average"] >= 8 ) ] 

df[ (df['budget'] == 0 ) | (df['revenue'] == 0 ) ]
→ Filter: "Kein Budget oder Umsatz"
 

df[ ~ ((df['budget'] == 0 ) | (df['revenue'] == 0 )) ]
Filter: "Budget oder Umsatz ist nicht 0" (NICHT Berechnung ~)

wie man merge () benutzt

Argument wie Optionen

df1 = pd.DataFrame({'key':["k0","k1","k2"],
                  'A':["a0","a1","a2"],
                  'B':["b0","b1","b2"]})

df2 = pd.DataFrame({'key':["k0","k1","k2"],
                  'C':["c0","c1","c2"],
                  'D':["d0","d1","d2"]})

join-type.jpg

20150125230158.png

Recommended Posts

Pandas Grundlagen
Pandas Grundlagen
Pandas
Pandas Memo
Pandas Grundlagen für Anfänger ① Lesen & Verarbeiten
Linux-Grundlagen
Python-Grundlagen
NumPy-Grundlagen
Python-Grundlagen ④
Git Grundlagen
Pandas Notizen
Python-Grundlagen ③
Python-Grundlagen
Django Grundlagen
Memorandum of Pandas
Linux-Grundlagen
Python-Grundlagen
Python-Grundlagen
Python-Grundlagen ③
Pandas Memorandum
Pandas Memo
Python-Grundlagen ②
Python-Grundlagen ②
Pandas Basics Summary Link für Anfänger
pandas SettingWithCopyWarning
Pandas Selbststudium Memo
Pandas-Grundlagen für Anfänger ③ Erstellen Sie ein Histogramm mit matplotlib
Python-Grundlagen: Liste
Python-Grundmemorandum
Grundlagen des Shell-Skripts # 2
Meine Pandas (Python)
Excel-> Pandas-> SQLite
# Python-Grundlagen (#matplotlib)
Python CGI-Grundlagen
Python-Grundlagen: Wörterbuch
[Pandas] GroupBy-Tipps
Pandas Daten lesen
Über beschreiben Pandas
Pandas verwandte Links
Pandas mit fehlendem Wert
9rep - Pandas MySQL
[Pandas] Grundlagen der Verarbeitung von Datumsdaten mit dt
Python-Grundlagen ①
Grundlagen von Python ①
Python Slice Grundlagen
# Python-Grundlagen (Umfang)
Gehen Sie zu den Grundlagen des Unterrichts
# Python-Grundlagen (#Numpy 1/2)
# Python-Grundlagen (#Numpy 2/2)
Lernen ohne Lehrer 1 Grundlagen
# Python-Grundlagen (Funktionen)
Pandas Operations Memorandum
Grundlagen des Python-Arrays
Nach Pandas sortieren
Grundlagen der Python-Profilerstellung
Grundlagen der Linux-Befehle
Python #Numpy Basics
Python-Grundlagen: Funktionen
Pandas-Grundlagen für Anfänger ② Übersicht über die Daten
Python Pandas Memo