Die Vorverarbeitung von Daten ist für die statistische Analyse unverzichtbar. Zunächst werden die Daten gelesen, damit sie von einem Computer verarbeitet werden können. Der Turnaround ist jedoch häufig ein Problem im Berechnungsprozess, der große Datenmengen verarbeitet. In solchen Fällen sind mehrere Schritte zu unternehmen.
Es ist lange her, dass es als Big Data bezeichnet wurde, aber in Wirklichkeit ist es nicht erforderlich, die Größe der Stichprobe zu erhöhen. Lassen Sie uns eine signifikante Stichprobe mit Stichprobenmethode extrahieren.
E / A ist der Engpass für viele zentralisierte Datenprozesse. Zu diesem Zeitpunkt ist es besser, nur die erforderlichen Daten zu lesen oder die Originaldaten entsprechend zu teilen, um die Eingabegröße selbst zu verringern.
Das Schneiden ist einfach, wenn Sie mit Daten in Pandas arbeiten.
#Extrahieren Sie Daten bis zu 30 Jahren
data_y = data[:"30"]
#Daten über 31 Jahre extrahieren
data_o = data["31":]
Sie können auch Datensätze zusammenführen auf diese Weise in Scheiben schneiden.
Dies ist ein Beispiel für die Verwendung des Periodendurchschnitts, um monatliche Daten zu vierteljährlichen Daten zusammenzufassen.
data.resample('Q',how="mean")
"sum", "mean", "median", "max", "min", "last", "first" stehen zur Verfügung.
Datensätze sind nicht immer ordentlich organisiert. pandas fügt verschiedene Redewendungen hinzu, die von Fachleuten im Umgang mit fehlenden Werten gepflegt werden.
data.fillna(0)
Im obigen Beispiel wird der fehlende Wert durch 0 ersetzt. Wenn Sie data.fillna (data.mean ()) usw. verwenden, wird es mit dem Durchschnittswert gefüllt.
Geben Sie method = "ffill" an, um den unmittelbar folgenden Wert einzugeben.
data.fillna(method='ffill')
Auch die Werte vor und nach dem fehlenden Wert Lineare Interpolation Es ist einfach zu machen.
data.interpolate()
Sie werden häufig Daten löschen, die fehlende Werte enthalten. Entfernen Sie wie folgt.
data.dropna(axis=0) #Linienachse=0 oder Spaltenachse=1
Fügen Sie eine neue Spalte mit dem Namen data ['New'] hinzu.
data['New']=rand(data.shape[0])
Fügen Sie auch diesmal eine Zeile hinzu. Sie können es hinzufügen, indem Sie in der Funktion .append () einen Datenrahmen angeben.
data = data.append(pd.dataFrame([1,2,3,4,5],columns=["A","B","C","D","E"],index=data[-1:].index+1))
Sie können es überschreiben, indem Sie die Daten, die Sie ersetzen möchten, an data.iloc übergeben. Da data.shape die Anzahl der Matrizen im Datenrahmen darstellt, kann es durch Zufallszahlen überschrieben werden, indem Zufallszahlen für die Anzahl der Matrizen generiert und ersetzt werden.
#Überschreiben Sie die erste Zeile mit einer Zufallszahl
data.iloc[0]=rand(data.shape[1])
#Überschreiben Sie die erste Spalte mit einer Zufallszahl
data.iloc[:,0]=rand(data.shape[0])
Übergeben Sie zum Sortieren der Daten eine Liste mit Spaltennamen an die Funktion .sort (). Im folgenden Beispiel wird die erste Spalte priorisiert und die Spalten bis zur zweiten Spalte werden in aufsteigender Reihenfolge sortiert. Das Ergebnis wird an den Empfänger zurückgegeben.
data.sort(columns=list(data.columns[0:2]),ascending=True)
Hier finden Sie eine Zusammenfassung nützlicher Prozesse bei der Verarbeitung von Datensätzen mit Pandas.
Recommended Posts