Zusammenfassung der Vorverarbeitungsmethoden für Python-Anfänger (Pandas-Datenrahmen)

Ich bin neu in Python. In Bezug auf Datenrahmenoperationen in Pandas gab es meines Erachtens keinen Artikel, in dem die Punkte und Zwecke der Vorverarbeitung erläutert wurden, obwohl es nur zahlreiche Artikel zur Erklärung der Operation gibt. Ich habe beschlossen, es als Lernnotiz zu erstellen.

Angenommener Leser

Python-Anfänger ∋ I.
Diejenigen, die begonnen haben, Pandas zu berühren

Was Sie nach dem Lesen dieses Artikels tun können

--Wenn Sie einen Datenrahmen mithilfe der Pandas-Bibliothek lesen, können Sie sowohl den Zweck der Vorverarbeitung als auch die spezifische Vorgehensweise für die ersten Schritte verstehen. ―― Insbesondere können Sie die Verarbeitung nach dem Lesen der CSV-Datei problemlos durchführen.

Annahme

――Der Code in diesem Dokument wurde geschrieben, nachdem Folgendes geschrieben wurde. Bitte ersetzen Sie df gegebenenfalls durch Ihren Datenrahmen. Stellen Sie sich die Passagierdaten der Titanic vor, die häufig im Einführungsinhalt von Statistiken verwendet werden, aber die Daten, die herauskommen, sind die Fiktion für die Erstellung dieses Artikels.

Es wird nicht erwähnt, wie der Datenrahmen selbst erstellt oder gelesen oder die Matrix bearbeitet wird. Ich habe vor, es zu einem späteren Zeitpunkt zu veröffentlichen.

import pandas as pd
df = pd.read_csv("hogehoge/test.csv", usecols = ['PassengerId','Sex','Age'], header = 1)

Hauptartikel I | Datenübersicht

1. Visuelle Bestätigung

--Überprüfen Sie den Inhalt der Daten visuell mit der Head-Methode und der Tail-Methode --Überprüfen Sie die Zeilen- und Spaltennamen mit der Spaltenmethode und der Indexmethode. --Zweck: Überprüfen Sie, ob die falsche Datei gelesen wurde und ob die Daten wie erwartet gelesen wurden.

#führen/Zählen Sie die letzten beiden Zeilen auf. Geben Sie die Anzahl der Zeilen an, die Sie einchecken möchten. 2(Wenn nicht angegeben, wird 6 angegeben)
print(df.head(2))
print(df.tail(2))
print("Spaltenname:",df.columns)
print("Zeilenname(index):"df.index)

"""
Angezeigt als ↓:
# head
   PassengerId     Sex   Age
0            1  female  23.0
1            2    male  48.0

# tail
     PassengerId     Sex   Age
998          999  female  41.0
999         1000    male  15.0

Spaltenname: Index(['PassengerId', 'Sex', 'Age'], dtype='object')

Zeilenname: RangeIndex(start=0, stop=1000, step=1)

"""

Aus diesem Ergebnis kann beispielsweise Folgendes bestätigt werden: --Sex wird als String gespeichert, ――Da der Zeilenname als RangeIndex zurückgegeben wurde, hat der Zeilenname nur einen Seriennummernindex (er hat keinen bestimmten Namen) und es gibt 1000 Daten. --RangeIndex (Start = 0, Stop = 1000, Schritt = 1) ist "ab 0 und indiziert jede 1 mit weniger als 1000 Zahlen", sodass die Anzahl der Daten (Anzahl der Zeilen) von 0 bis 999 indiziert wird. 1000 Stück

2. Bestätigen Sie den Datentyp

--Verwenden Sie das Attribut dtypes --Attribute-> Hängen Sie `` `.hoge``` wie eine Methode nach dem Datenrahmen an --Zweck: Abhängig von der verwendeten Bibliothek kann die Berechnung mit gemischten Datentypen einen Fehler verursachen, um ihn später zu entfernen (später beschrieben).

print(df.dtypes)

"""
Es wird wie folgt angezeigt
PassengerId      int64
Sex             object
Age            float64
"""

――Aus diesem Ergebnis können Sie meines Erachtens die folgenden Probleme erstellen, zum Beispiel: ―― 1) Geschlecht wird als Zeichenkette wie männlich oder weiblich gespeichert. Ist es nicht besser, einen Dummy-Wert wie 0/1 hinzuzufügen, der für die Berechnung verwendet wird? ―― 2) Das Alter ist float (Gleitkomma-Typ), während PassengerId int (Integer-Typ) ist. Beide werden für die Berechnung verwendet, und es ist besser, sie mit beiden zu vereinheitlichen.

3. Bestätigung und Ersatz des fehlenden Wertes (NaN)

--Verwenden Sie eine Kombination aus isnull-Methode und einer beliebigen Methode und schließen Sie sie aus ―― Indem Sie diese kombinieren, können Sie "eine Spalte erkennen, die mindestens ein NaN enthält".

Zweck: Fehlende Werte wirken sich nachteilig auf das Gesamtberechnungsergebnis aus und sollten daher ausgeschlossen werden (später beschrieben).

print(df.isnull().any())

"""
Das Ergebnis wird wie folgt angezeigt
PassengerId    False
Sex            False
Age             True
dtype: bool

"""

――Der Vorschlag von hier lautet: "NaN ist in der Spalte Alter vorhanden, daher scheint es möglich zu sein, es zu entfernen."

Die Verarbeitungsmethode (ob die Zeile, in der NaN vorhanden ist, gelöscht, NaN durch 0 ersetzt, die Spalte Alter selbst gelöscht usw.) hängt vom jeweiligen Fall ab.

4. Bestätigung der Basisstatistik

--Überprüfen wir die grundlegenden Statistiken mit der Beschreibungsmethode

Zeigt den Gesamtwert, den arithmetischen Durchschnittswert, die Standardabweichung und den Quadranten jeder Spalte an. --Zweck: Übersicht über die zu analysierenden Daten und Überprüfung auf Ausreißer.

print(df.describe())
"""
       PassengerId         Age
count  1000.000000  884.000000
mean    446.000000   29.699118
std     257.353842   14.526497
min       1.000000    3.100000
25%     215.500000   20.125000
50%     430.000000   27.000000
75%     703.500000   39.000000
max    1000.000000   80.000000
"""

--Vorschläge erhalten:

Obwohl das Mindestalter 3,1 beträgt, scheint das Alter als Ganzzahl (obwohl es sich um einen Gleitkommatyp handelt) aufgezeichnet zu werden, was durch Kopf / Schwanz bestätigt wird. Ist das nicht 3.1 ein Fehler von 31 Datenerfassern? Bestätigung ist erforderlich.
Seien wir vorsichtig beim Lesen von Statistiken --PassengerId (Passagiernummer) -Statistiken sind bedeutungslos
Da die Spalte Geschlecht ein Objekttyp ist, wird sie automatisch ausgeschlossen.

Hauptartikel II | Grundlegende Verarbeitung durchführen

1. Behandeln Sie fehlende Werte

――In diesem Fall beispielsweise "Setzen wir NaN des Alters auf 0. Wenn wir den Durchschnittswert des Alters in der Zukunft berechnen, analysieren wir andere Werte als 0" und konvertieren Sie NaN in 0. --In loc extrahieren Sie "alle Altersspalten in der Zeile, in der der Wert der Altersspalte NaN ist" (obwohl dies auf Japanisch kompliziert ist) und ersetzen Sie 0.

#Führen Sie die Konvertierung für die Spalte durch, in der das Vorhandensein von NaN im vorherigen Kapitel bestätigt wurde
df.loc[df['Age'].isnull(), 'Age'] = 0

#Überprüfen Sie, ob der Vorgang korrekt durchgeführt wurde
print(df.isnull().any())

"""
Es wird wie folgt angezeigt. Vergleiche mit dem vorherigen Kapitel c.
PassengerId    False
Sex            False
Age            False
dtype: bool
"""

2. Vereinheitlichen Sie Datentypen und Datentypen

Arbeiten Sie basierend auf dem vorherigen Kapitel daran, die Datentypen zu vereinheitlichen --Konvertieren Sie den Datentyp spaltenweise mit der Astype-Methode
In diesem Fall müssen Sie (1) die PassengerId in den Typ float64 ändern und (2) Sex 0/1 als Dummy-Variable zuweisen (und den Typ float64 festlegen).

#Änderung des PassengerId-Typs
df.PassengerId = df.PassengerId.astype('float64')

#Sex Dummy Wertzuweisung(0 für männlich und 1 für weiblich) &float64
df.Sex[df.Sex=='male'] = 0
df.Sex[df.Sex=='female'] = 1
df.Sex = df.Sex.astype('float64')

#Überprüfen Sie, ob der Vorgang korrekt durchgeführt wurde
print(df.dtypes)

"""
Es sollte so aussehen:
PassengerId    float64
Sex            float64
Age            float64

"""

abschließend

Der grundlegende Vorverarbeitungsablauf und das Verfahren sind zusammengefasst. Unabhängig davon, welche Art von Daten Sie analysieren, wird die Notwendigkeit einer solchen Vorverarbeitung sicherlich auftauchen. Wir würden uns freuen, wenn Sie uns Ihr Feedback senden könnten. Ich bin auch ein Anfänger, also werde ich weiter lernen. --3 / 27 postscript: Ich habe dieses Vorverarbeitungsverfahren [hier] tatsächlich ausprobiert (https://www.kaggle.com/yosher/i-hope-knn-is-realistic-and-idealistic-for). -titanisch). Bitte schauen Sie, wenn Sie möchten!