[PYTHON] Pandas Memo

Wenn das Erlernen von Python Pandas-bezogene Inhalte enthält, werde ich diese von Zeit zu Zeit aktualisieren.

Pandas Eine Bibliothek, die Funktionen zur Unterstützung der Datenanalyse bietet


importieren

python


import pandas as pd

Datenerfassung

CSV lesen [read_csv]

python


csv_test_1 = pd.read_csv('hoge.csv')
Lesen Sie Excel [read_excel]

python


excel_data = pd.read_excel('hoge.xlsx')

Datenverknüpfung (Union)

Vertikale Kombination von Daten [concat]

python


csv_test_2 = pd.read_csv('hoge_2.csv')
csv_test = pd.concat([csv_test_1 , csv_test_2], ignore_index=True)
csv_test.head()
Datenzusammenführung LEFT JOIN [Zusammenführen]

-Wenn die Elementnamen beider zu verbindenden Tabellen identisch sind. Kombinieren Sie mit `on =" id "` als Bedingung.

Post-Join-Tabelle= pd.merge(Tabelle 1,Tabelle 2, on="Element verbinden", how="Methode")




#### **`python`**
```python

join_data = pd.merge(a_data, b_data[["id", "date", "customer"]], on="id", how="left")
join_data.head()

-Wenn die Elementnamen beider zu verbindenden Tabellen unterschiedlich sind. Kombiniert mit `left_on =" customer_name ", right_on =" customer name "" `.

python


pd.merge(a_data, b_data, left_on="customer_name", right_on="Kundenname", how="left")

Bestätigung der Daten

Erfassung eindeutiger Daten [pd.unique (Daten)]

python


pd.unique(test_data.item_name))
len(pd.unique(test_data.item_name))) #Anzahl eindeutiger Daten

Datum manipulieren

Konvertieren Sie den Wert in Spalte a in datetime type [to_datetime ()]

python


test_data["a"] = pd.to_datetime(test_data["a"])
Extraktion des Datums [dt]
Datumsformat [dt.strftime ("% Y% m")]

python


time_data["payment_month"] = time_data["payment_date"].dt.strftime("%Y%m")

Schwenktisch

Erstellen Sie eine Pivot-Tabelle [pd.pivot_table]

python


pd.pivot_table(test_data, index='item_name', columns='payment_month', values=['price', 'quantity'], aggfunc='sum')

** ・ Pivot_table Übersicht ** index: Geben Sie eine Zeile an Spalten: Geben Sie Spalten an Werte: Geben Sie die zu aggregierenden Werte an aggfunc: Geben Sie die Aggregationsmethode an


Da es sich nicht um den Inhalt von Pandas handelt, wird es später separat organisiert

Anzeige von Daten

Anzeige [Drucken]

python


print(len(test_data))  #Zeigen Sie die Anzahl der Daten an
Zeigen Sie die ersten 5 Datenzeilen an [Kopf]

python


csv_test_1.head()
Geben Sie die Datenspalte an und zeigen Sie die ersten 5 Zeilen an [Kopf]

python


csv_test_1["Spaltenname"].head()

Daten bearbeiten

Daten mit der Funktion .loc extrahieren [.loc (Bedingung, zu erfassende Spalte)]

python


res = test_data.loc[flg_is_null, "item_name"]

Erstellen einer Datenzeichenfolge

Stellen Sie den Wert ein, der durch Multiplizieren von a und b in der zusätzlichen Spalte mit new erhalten wird.

python


test_data["new"] = test_data["a"] * test_data["b"]

Datenberechnung

Fasse Spalte a zusammen [column.sum ()]

python


test_data["a"].sum()
Aggregieren nach angegebener Gruppe [groupby ("Spalte"). Summe ("Spalte")]

python


test_data.groupby("create_date").sum()["price"]
Aggregieren nach angegebener Gruppe (mehrere Spezifikationen) [groupby ("Spalte"). Summe ("Spalte")]

python


test_data.groupby(["create_date", "item_name"]).sum()[["price", "quantity"]]

Datenvergleich

Vergleichen Sie die Summe in Spalte a mit der Summe in Spalte b und zeigen Sie das Ergebnis in TRUE / FALSE an

python


test_data["a"].sum() == test_data["b"].sum()
Suchen Sie nach fehlenden Werten, geben Sie für jede Spalte null als TRUE / FALSE zurück und summieren Sie mit sum

python


test_data.isnull().sum()
Bestätigung fehlender Werte Gibt das Vorhandensein oder Fehlen fehlender Werte in TRUE / FALSE für jede Spalte zurück

python


test_data.isnull().any(axis=0)
Ausgabe verschiedener Statistiken [beschreiben ()]

python


test_data.describe()
Maximal- und Minimalwerte der angegebenen Spalte [max (), min ()]

python


test_data["create_date"].min()
test_data["create_date"].max()
Datentypbestätigung [dtypes]

python


test_data.dtypes

-Die folgenden verschiedenen Statistiken können mit description () angezeigt werden. Anzahl der Daten (Anzahl), Mittelwert (Mittelwert), Standardabweichung (Standard), Minimum (min), Quadrant (25%, 75%), Median (50%), Maximum (max)


Arbeitsnotiz · Datenbereinigung

Datenverarbeitung: Pandas Visualisierung: Matplotlib Maschinelles Lernen: Scikit-Lernen

Recommended Posts

Pandas Memo
Pandas Memo
Pandas Reverse Memo
Pandas
Visualisierungsnotiz von Pandas, Seaborn
gzip memo
Himbeer-Pi-Memo
[Python] Operationsnotiz von Pandas DataFrame
HackerRank-Memo
Python-Memo
Python-Memo
Graphen-Memo
Kolben Memo
pyenv memo
Matplotlib-Memo
Pandas Memo ~ Keine, np.nan, über leere Zeichen ~
pytest memo
sed memo
Python-Memo
Installieren Sie Memo
Pandas Grundlagen
BeautifulSoup4 Memo
Pandas Notizen
networkx memo
Python-Memo
Kater Memo
[Memo] Kleine Geschichte von Pandas, numpy
Befehlsnotiz
Generator Memo.
Memorandum of Pandas
psycopg2 memo
Python-Memo
SSH-Memo
Pandas Grundlagen
Notiz: rtl8812
Pandas Memorandum
Shell Memo
pandas SettingWithCopyWarning
Python-Memo
Pycharm-Memo
Pandas Selbststudium Memo
AtCoder Andachtsnotiz (11/12)
[OpenCV] Persönliches Memo
PyPI-Push-Memo
Tensorflow-GPU Einführungsnotiz
LPIC201 Studiennotiz
Jupyter Notizbuch Memo
LPIC304 Virtualisierungsnotiz
ALDA-Ausführungsnotiz
Meine Pandas (Python)
Python-Anfänger-Memo (9.2-10)
youtube download memo
Inu x Memo
Django Lernnotiz
ARC # 016 Teilnahmememo
Schöne Suppe Memo
LPIC101 Studiennotiz
Python-Anfänger-Memo (9.1)