[PYTHON] Datensätze mit Pandas verarbeiten (1)

Extraktion von Probendaten

Die Vorverarbeitung von Daten ist für die statistische Analyse unverzichtbar. Zunächst werden die Daten gelesen, damit sie von einem Computer verarbeitet werden können. Der Turnaround ist jedoch häufig ein Problem im Berechnungsprozess, der große Datenmengen verarbeitet. In solchen Fällen sind mehrere Schritte zu unternehmen.

Es ist lange her, dass es als Big Data bezeichnet wurde, aber in Wirklichkeit ist es nicht erforderlich, die Größe der Stichprobe zu erhöhen. Lassen Sie uns eine signifikante Stichprobe mit Stichprobenmethode extrahieren.

E / A ist der Engpass für viele zentralisierte Datenprozesse. Zu diesem Zeitpunkt ist es besser, nur die erforderlichen Daten zu lesen oder die Originaldaten entsprechend zu teilen, um die Eingabegröße selbst zu verringern.

Probendaten in Scheiben schneiden und aggregieren

Schneiden

Das Schneiden ist einfach, wenn Sie mit Daten in Pandas arbeiten.

#Extrahieren Sie Daten bis zu 30 Jahren
data_y = data[:"30"]
#Daten über 31 Jahre extrahieren
data_o = data["31":]

Sie können auch Datensätze zusammenführen auf diese Weise in Scheiben schneiden.

Aggregat

Dies ist ein Beispiel für die Verwendung des Periodendurchschnitts, um monatliche Daten zu vierteljährlichen Daten zusammenzufassen.

data.resample('Q',how="mean")

"sum", "mean", "median", "max", "min", "last", "first" stehen zur Verfügung.

Umgang mit fehlenden Werten

Datensätze sind nicht immer ordentlich organisiert. pandas fügt verschiedene Redewendungen hinzu, die von Fachleuten im Umgang mit fehlenden Werten gepflegt werden.

Füllen Sie die Löcher

data.fillna(0)

Im obigen Beispiel wird der fehlende Wert durch 0 ersetzt. Wenn Sie data.fillna (data.mean ()) usw. verwenden, wird es mit dem Durchschnittswert gefüllt.

Geben Sie method = "ffill" an, um den unmittelbar folgenden Wert einzugeben.

data.fillna(method='ffill')

Auch die Werte vor und nach dem fehlenden Wert Lineare Interpolation Es ist einfach zu machen.

data.interpolate()

Sie werden häufig Daten löschen, die fehlende Werte enthalten. Entfernen Sie wie folgt.

data.dropna(axis=0) #Linienachse=0 oder Spaltenachse=1

Daten hinzufügen und ersetzen

Fügen Sie eine neue Spalte mit dem Namen data ['New'] hinzu.

data['New']=rand(data.shape[0])

Fügen Sie auch diesmal eine Zeile hinzu. Sie können es hinzufügen, indem Sie in der Funktion .append () einen Datenrahmen angeben.

data = data.append(pd.dataFrame([1,2,3,4,5],columns=["A","B","C","D","E"],index=data[-1:].index+1))

Sie können es überschreiben, indem Sie die Daten, die Sie ersetzen möchten, an data.iloc übergeben. Da data.shape die Anzahl der Matrizen im Datenrahmen darstellt, kann es durch Zufallszahlen überschrieben werden, indem Zufallszahlen für die Anzahl der Matrizen generiert und ersetzt werden.

#Überschreiben Sie die erste Zeile mit einer Zufallszahl
data.iloc[0]=rand(data.shape[1])
#Überschreiben Sie die erste Spalte mit einer Zufallszahl
data.iloc[:,0]=rand(data.shape[0])

Übergeben Sie zum Sortieren der Daten eine Liste mit Spaltennamen an die Funktion .sort (). Im folgenden Beispiel wird die erste Spalte priorisiert und die Spalten bis zur zweiten Spalte werden in aufsteigender Reihenfolge sortiert. Das Ergebnis wird an den Empfänger zurückgegeben.

data.sort(columns=list(data.columns[0:2]),ascending=True)

Zusammenfassung

Hier finden Sie eine Zusammenfassung nützlicher Prozesse bei der Verarbeitung von Datensätzen mit Pandas.

Recommended Posts

Datensätze mit Pandas verarbeiten (1)
Datensätze mit Pandas verarbeiten (2)
Zusammenführen von Datensätzen mit Pandas
Datenverarbeitungstipps mit Pandas
Versuchen Sie schnell, Ihren Datensatz mit Pandas zu visualisieren
Beispiel für eine effiziente Datenverarbeitung mit PANDAS
Bildverarbeitung mit MyHDL
Mit Pandas schnell visualisieren
Bootstrap-Sampling mit Pandas
Konvertieren Sie 202003 bis 2020-03 mit Pandas
Zeichnen Sie ein Diagramm, indem Sie es mit Pandas groupby verarbeiten
Pandas lernen mit Chemoinfomatik
Datenvisualisierung mit Pandas
Datenmanipulation mit Pandas!
Bildverarbeitung mit Python
Parallelverarbeitung mit Mehrfachverarbeitung
Daten mit Pandas mischen
100 Sprachverarbeitung Knock-95 (mit Pandas): Bewertung mit WordSimilarity-353
Bildverarbeitung mit PIL
Verarbeiten Sie CSV-Daten mit Python (Zählverarbeitung mit Pandas)
Bildverarbeitung mit Python (Teil 2)
100 Sprachverarbeitungsklopfen mit Python 2015
Lesen Sie CSV mit Python-Pandas
Laden Sie verschachtelten Json mit Pandas
Parallelverarbeitung mit lokalen Funktionen
Bildverarbeitung mit PIL (Pillow)
"Apple-Verarbeitung" mit OpenCV3 + Python3
Akustische Signalverarbeitung mit Python (2)
[Python] Ändere den Typ mit Pandas
Parallele Verarbeitung mit Parallel von Scikit-Learn
Bildverarbeitung mit Python (Teil 1)
Bildverarbeitung mit Python (3)
Standardisieren Sie nach Gruppen mit Pandas
Verhindern Sie Auslassungen mit Pandas Print
[Python] Bildverarbeitung mit Scicit-Image
Studieren Sie die Verarbeitung natürlicher Sprache mit Kikagaku
[Python] Einfache Parallelverarbeitung mit Joblib
Extrahieren Sie den Maximalwert mit Pandas.
Pandas Grundlagen für Anfänger ⑧ Ziffernverarbeitung
100 Sprachverarbeitungsklopfen mit Python (Kapitel 1)
[Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch
Pandas
Probieren Sie die Audiosignalverarbeitung mit librosa-Beginner aus
100 Sprachverarbeitungsklopfen mit Python (Kapitel 3)
Vielseitige Datenerfassung mit Pandas + Matplotlib
Die Bildverarbeitung mit Python 100 klopft an die Binärisierung Nr. 3
[Python] Verbinde zwei Tabellen mit Pandas
Pfadverarbeitung mit takewhile und dropwhile
Extrahieren Sie bestimmte mehrere Spalten mit Pandas
1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)
Bequeme Analyse mit Pandas + Jupyter Notebook
Sprachverarbeitung 100 Knocks-31 (mit Pandas): Verben
Zeichnen Sie ein Diagramm mit Pandas + XlsxWriter
Bearbeiten von Strings mit Pandas gruppieren nach
Bulk Insert Pandas DataFrame mit psycopg2
Ich möchte ○○ mit Pandas machen
Erstellen Sie eine Altersgruppe mit Pandas
100 Bildverarbeitung mit Python Knock # 2 Graustufen
Arithmetische Verarbeitung in der Kanji-Zahlenklasse