Dieser Artikel ist eine Kopie und Erklärung des offiziellen Pandas-Tutorials "10 Minuten für Pandas".
Ich verweise auf die folgende URL https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
import numpy as np
import pandas as pd
np
pd
OK, wenn jedes Modul wie folgt angezeigt wird
** ModuleNotFoundError: Kein Modul mit dem Namen 'Pandas' ** Wenn Sie wütend werden, setzen Sie Pandas an die erste Stelle.
---------------------------------------------------------------------------
ModuleNotFoundError Traceback (most recent call last)
<ipython-input-1-59ab05e21164> in <module>
1 import numpy as np
----> 2 import pandas as pd
ModuleNotFoundError: No module named 'pandas'
Befehl
python -m pip install pandas
Sie können Daten einfach erstellen, indem Sie eine Liste in die Klasse Series einfügen. ..
#Einfach auszurichten
s = pd.Series(data=[1, 3, 5, np.nan, 6, 8])
s
Mit date_range () können Sie eine Zeile mit einem Datum für einen bestimmten Zeitraum erstellen.
#Daten für 6 Tage ab dem 1. Januar 2020
dates = pd.date_range("20200101", periods=6)
dates
[DataFrame] von Pandas (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas-dataframe) Durch Angabe des Argumentindex der Klasse ** ** der Zeile Sie können den Index angeben.
#Geben Sie die Daten vom 1. Januar 2020 für den Zeilenindex an
#Geben Sie für jeden Wert eine Zufallszahl ein
df = pd.DataFrame(np.random.randn(6, 4), index=dates)
df
Auch von der DataFrame-Klasse Sie können die Spaltennamen festlegen, indem Sie die ** Argumentspalten ** angeben.
#Stellen Sie den Spaltennamen ABCD ein
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df
Durch Übergeben von Wörterbuchtypdaten an die DataFrame-Klasse wird der Schlüsselteil des Wörterbuchtyps zum Spaltennamen.
df2 = pd.DataFrame(
{
"A": 1.,
"B": pd.Timestamp("20200101"),
"C": pd.Series(1, index=list(range(4)), dtype="float32"),
"D": np.array([3] * 4, dtype="int32"),
"E": pd.Categorical(["test", "train", "test", "train"]),
"F": "foo",
}
)
df2
Sie können die Datenattribute jeder Spalte unter Bezugnahme auf das Attribut ** dtypes ** anzeigen.
df2.dtypes
Wenn Sie Jupyter Nootbook, Jupyter Lab usw. verwenden, werden die Spaltennamen in Tab-Vervollständigung angezeigt.
db2.<TAB>
Daten mithilfe der [head () -Methode] der DataFrame-Klasse (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html#pandas.DataFrame.head) Sie können den Anfang anzeigen.
df.head(2)
In ähnlicher Weise können Sie mit tail () der DataFrame-Klasse Sie können den Schwanz anzeigen.
df.tail(2)
Unter Bezugnahme auf ** index ** der DataFrame-Klasse Sie können den Zeilenindex dieser Daten anzeigen.
df.index
df2.index
Daten mithilfe der DataFrame-Klasse to_numpy () Kann in Daten konvertiert werden, die mit numpy einfach zu bedienen sind.
df.to_numpy()
df2.to_numpy()
Verwenden Sie die DataFrame-Klasse Referenz: DataFrame.describe (). Sie können eine schnelle Statistik für jede Datenspalte erhalten.
df2.describe()
Wenn Sie auf das [T-Attribut] der DataFrame-Klasse verweisen (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.T.html#pandas-dataframe-t), werden die Daten durch die Matrix ausgetauscht Sie können darauf zugreifen.
df.T
In der DataFrame-Klasse transpose () wird dieselbe Matrix ersetzt. Kann erhalten werden.
df.transpose()
Mithilfe der DataFrame-Klasse sort_index () , Sie können die gesamte Zeile oder Spalte sortieren.
df.sort_index()
** Setzen Sie die Argumentachse ** auf 0 oder "Index" zum Sortieren nach Zeilen, setzen Sie 1 oder "Spalten" zum Sortieren nach Achse (Standardwert 0). Wenn im ** Argument aufsteigend ** False angegeben ist, erfolgt die Reihenfolge in absteigender Reihenfolge (Standardwert True).
df.sort_index(axis=0, ascending=False)
df.sort_index(axis=1, ascending=False)
Mit der DataFrame-Klasse sort_values () (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas-dataframe-sort-values) Sie können nach Zeilen oder Spalten sortieren.
df.sort_values(by="B")
df.sort_values(by="2020-01-01", axis=1)
(Hinzugefügt am 2020-03-07)
Sie können die angegebene Zeile erhalten, indem Sie ** df ["A"] ** oder ** df.A ** einstellen.
df["A"]
df.A
Wenn in der Liste ** [] ** angegeben, können Sie Spalten und Zeilen mit Python-Slice-Operationen auswählen.
#Die ersten 4 Spalten werden angezeigt
df[0:3]
Sie können auch den Reindex-Bereich erhalten.
#Wird vom 2. Januar 2020 bis 4. Januar 2020 angezeigt
df['20200102':'20200104']
Index (in diesem Fall Daten) zu loc () der DataFrame-Klasse Sie können eine Zeile als Spalte auswählen, indem Sie angeben).
df.loc[dates]
df.loc[dates[0]]
Wählen Sie mit [loc ()] mehrere Spalten aus (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html#pandas-dataframe-loc). tun können.
df.loc[:, ["A", "B"]]
Es scheint, dass ein Fehler auftritt, wenn kein führender Doppelpunkt vorhanden ist.
loc () Mehrere Zeilen und Vielfache durch Kombinieren von Slice-Operationen Sie können Spalten auswählen.
df.loc['20200102':'20200104', ['A', 'B']]
Einzelne Daten durch Angabe eines Index in loc () Kann bekommen
df.loc[dates[0], 'A']
Mit at () können Sie einzelne Daten schneller abrufen.
df.at[dates[0], 'A']
Wählen Sie Daten aus, indem Sie einen numerischen Wert angeben, indem Sie iloc () der DataFrame-Klasse verwenden. Sie können.
df.iloc[3]
df.iloc[3:5, 0:2]
df.iloc[[1, 2, 4], [0, 2]]
Slice (:), wobei die Start- und Endposition im Argument von iloc () der DataFrame-Klasse weggelassen wurde. Sie können eine bestimmte alle Zeilen oder alle Spalten erhalten, indem Sie (nur) angeben
df.iloc[1:3, :]
df.iloc[:, 1:3]
Einzelne Daten durch Angabe nur eines numerischen Werts als Argument in iloc () der DataFrame-Klasse Du kannst wählen
df.iloc[1, 1]
Wie at (), [iat ()](https: //pandas.pydata) .org / pandas-docs / stabile / referenz / api / pandas.DataFrame.iat.html) Mit können Sie einzelne Daten schneller abrufen
df.at[dates[0], 'A']
(Ich bin hier erschöpft. Der Rest ... ist nicht da? 10 Minuten sind: Nachdenken :)
4. Fehlende Daten 5. Operationen 6. Zusammenführen 7. Gruppierung 8. Neu erstellen 9. Zeitreihen 10. Kategorisieren 11. Plot 12. Dateneingabe und -ausgabe 13. Fallstricke
Recommended Posts