So bearbeiten Sie Daten in Pandas, was für die Datenanalyse in Python unverzichtbar ist Ich habe die Grundlagen zusammengefasst.
Aus wichtigen Grammatiken, die Sie einfach vergessen haben, haben wir einige Tipps beigefügt.
Empfohlen für solche Leute → Ich möchte Pandas zum ersten Mal berühren! → Versuchen Sie, R auch in Python zu verwenden. → Ich kann mich nicht an die Grammatik von Pandas erinnern - es wäre praktisch, wenn es irgendwo eine Liste gäbe ... → Wie viel Datenverarbeitung kann mit Python überhaupt durchgeführt werden?
Wenn Sie mehr über Datenmanipulation erfahren möchten, beginnen Sie bitte mit der ersten Hälfte.
◆ Grundlegende Zusammenfassung der Datenoperationen mit Python Pandas - Erste Hälfte: Datenerstellung und -operationen http://qiita.com/hik0107/items/d991cc44c2d1778bb82e
Suchen Sie Statistiken für jede Zeile oder Spalte eines Datenrahmens
math.py
#Spaltenrichtung insgesamt
df_sample["score1"].sum(axis=0) #Berechnen Sie die Summe der Score1-Werte
#axis=0 bedeutet in vertikaler Richtung summieren. Da es standardmäßig 0 ist, kann es weggelassen werden.
df_sample[["score1","score2"]].sum(axis=0) #score1,Summiere jede Punktzahl2. Es werden zwei Ergebnisse ausgegeben
#Zeilenrichtung insgesamt
df_sample[["score1","score2"]].sum(axis=1)
#Summieren Sie die Werte für score1 und score2 in jeder Zeile. Die Ergebnisse werden für jede Anzahl von Spalten ausgegeben
#axis=1 bedeutet in horizontaler Richtung summieren. In Pandas ist die Achse in der Zeilenrichtung. "
Denken Sie daran, dass Sie häufig zwischen Spaltenrichtungen unterscheiden.
◆Pivoting Pivot-tabellenartige Kreuztabelle und Datenstrukturkonvertierung
pivot.py
df_sample.pivot_table("score1", #Geben Sie die zu aggregierenden Variablen an
aggfunc="sum", #Festlegen, wie aggregiert werden soll
fill_value=0, #Angeben des Füllwerts, wenn kein entsprechender Wert vorhanden ist
rows="class", #Angeben von Variablen, die in Zeilenrichtung belassen werden sollen
columns="day_no") #Angeben von Variablen, die in Spaltenrichtung erweitert werden sollen
groupby.py
#In Pandas werden der Vorgang von Groupby und die zugehörige Aggregation separat ausgeführt.
#Wenn Sie die groupby-Methode verwenden, sieht sie wie ein normaler Datenrahmen aus, jedoch wie Group_Ein Objekt mit den Schlüsselinformationen By wird generiert.
#Dies gilt auch für R. Gruppe von in Dplyr()Ein Schlüssel wird von festgelegt und Aggregate entsprechend dem Schlüssel zusammenfassen.
df_sample_grouped = df_sample.groupby("day_no") # day_Gruppe mit Nr_Mach mit.
df_sample_grouped[["score1","score2"]].sum()
#Summe für gruppierte Objekte.
#Falls gewünscht, können Sie eine Variable angeben, um die Summe auszuführen.
# Group_By Key wird zwangsweise als Index behandelt
#Daher Gruppe_Kann nicht wie zuvor von als Spaltenvariable behandelt werden
df_sample_grouped = df_sample.groupby("day_no", as_index=false)
# as_index=Wenn false angegeben wird, wird es nicht mehr als Index behandelt.
Erstellen Sie eine DF aus einer CSV-Datei oder exportieren Sie eine DF in eine CSV-Datei
file.py
#CSV-Daten importieren
pd.read_csv("path_of_data")
#CSV-Daten exportieren
pd.to_csv("path_of_exported_file")