[PYTHON] Pandas Memo

Wenn das Erlernen von Python Pandas-bezogene Inhalte enthält, werde ich diese von Zeit zu Zeit aktualisieren.

Pandas Eine Bibliothek, die Funktionen zur Unterstützung der Datenanalyse bietet

importieren

`python`


import pandas as pd

Datenerfassung

CSV lesen [read_csv]

`python`


csv_test_1 = pd.read_csv('hoge.csv')

Lesen Sie Excel [read_excel]

`python`


excel_data = pd.read_excel('hoge.xlsx')

Datenverknüpfung (Union)

Vertikale Kombination von Daten [concat]

`python`


csv_test_2 = pd.read_csv('hoge_2.csv')
csv_test = pd.concat([csv_test_1 , csv_test_2], ignore_index=True)
csv_test.head()

Datenzusammenführung LEFT JOIN [Zusammenführen]

-Wenn die Elementnamen beider zu verbindenden Tabellen identisch sind. Kombinieren Sie mit `on =" id "` als Bedingung.

`Post-Join-Tabelle= pd.merge(Tabelle 1,Tabelle 2, on="Element verbinden", how="Methode")`




#### **`python`**
```python

join_data = pd.merge(a_data, b_data[["id", "date", "customer"]], on="id", how="left")
join_data.head()

-Wenn die Elementnamen beider zu verbindenden Tabellen unterschiedlich sind. Kombiniert mit `left_on =" customer_name ", right_on =" customer name "" `.

`python`


pd.merge(a_data, b_data, left_on="customer_name", right_on="Kundenname", how="left")

Bestätigung der Daten

Erfassung eindeutiger Daten [pd.unique (Daten)]

`python`


pd.unique(test_data.item_name))
len(pd.unique(test_data.item_name))) #Anzahl eindeutiger Daten

Datum manipulieren

Konvertieren Sie den Wert in Spalte a in datetime type [to_datetime ()]

`python`


test_data["a"] = pd.to_datetime(test_data["a"])

Extraktion des Datums [dt]

Datumsformat [dt.strftime ("% Y% m")]

`python`


time_data["payment_month"] = time_data["payment_date"].dt.strftime("%Y%m")

Schwenktisch

Erstellen Sie eine Pivot-Tabelle [pd.pivot_table]

`python`


pd.pivot_table(test_data, index='item_name', columns='payment_month', values=['price', 'quantity'], aggfunc='sum')

** ・ Pivot_table Übersicht ** index: Geben Sie eine Zeile an Spalten: Geben Sie Spalten an Werte: Geben Sie die zu aggregierenden Werte an aggfunc: Geben Sie die Aggregationsmethode an

Da es sich nicht um den Inhalt von Pandas handelt, wird es später separat organisiert

Anzeige von Daten

Anzeige [Drucken]

`python`


print(len(test_data))  #Zeigen Sie die Anzahl der Daten an

Zeigen Sie die ersten 5 Datenzeilen an [Kopf]

`python`


csv_test_1.head()

Geben Sie die Datenspalte an und zeigen Sie die ersten 5 Zeilen an [Kopf]

`python`


csv_test_1["Spaltenname"].head()

Daten bearbeiten

Daten mit der Funktion .loc extrahieren [.loc (Bedingung, zu erfassende Spalte)]

`python`


res = test_data.loc[flg_is_null, "item_name"]

Erstellen einer Datenzeichenfolge

Stellen Sie den Wert ein, der durch Multiplizieren von a und b in der zusätzlichen Spalte mit new erhalten wird.

`python`


test_data["new"] = test_data["a"] * test_data["b"]

Datenberechnung

Fasse Spalte a zusammen [column.sum ()]

`python`


test_data["a"].sum()

Aggregieren nach angegebener Gruppe [groupby ("Spalte"). Summe ("Spalte")]

`python`


test_data.groupby("create_date").sum()["price"]

Aggregieren nach angegebener Gruppe (mehrere Spezifikationen) [groupby ("Spalte"). Summe ("Spalte")]

`python`


test_data.groupby(["create_date", "item_name"]).sum()[["price", "quantity"]]

Datenvergleich

Vergleichen Sie die Summe in Spalte a mit der Summe in Spalte b und zeigen Sie das Ergebnis in TRUE / FALSE an

`python`


test_data["a"].sum() == test_data["b"].sum()

Suchen Sie nach fehlenden Werten, geben Sie für jede Spalte null als TRUE / FALSE zurück und summieren Sie mit sum

`python`


test_data.isnull().sum()

Bestätigung fehlender Werte Gibt das Vorhandensein oder Fehlen fehlender Werte in TRUE / FALSE für jede Spalte zurück

`python`


test_data.isnull().any(axis=0)

Ausgabe verschiedener Statistiken [beschreiben ()]

`python`


test_data.describe()

Maximal- und Minimalwerte der angegebenen Spalte [max (), min ()]

`python`


test_data["create_date"].min()
test_data["create_date"].max()

Datentypbestätigung [dtypes]

`python`


test_data.dtypes

-Die folgenden verschiedenen Statistiken können mit description () angezeigt werden. Anzahl der Daten (Anzahl), Mittelwert (Mittelwert), Standardabweichung (Standard), Minimum (min), Quadrant (25%, 75%), Median (50%), Maximum (max)

Arbeitsnotiz · Datenbereinigung

Datenverarbeitung: Pandas Visualisierung: Matplotlib Maschinelles Lernen: Scikit-Lernen