[PYTHON] [Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))

Thema

Dies ist das vierte Mal in einem Projekt, in dem der Inhalt von Hands-on notiert wird, bei dem jeder das berühmte Thema "Hauspreis" von Kaggle in Frage stellt. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo. Der Eindruck, dass es sich allmählich ansammelte, als es das 4. Mal war.

Die heutige Arbeit

Ergänzende fehlende Werte ergänzen (ich mache es diese Woche hier)

Was ich bis zum letzten Mal getan habe, war das, das "den Index einschließlich des fehlenden Werts als Array erhält". (Apropos, ich fühle mich verwirrt, dass "Python verschiedene Konzepte von Arrays hat und es nervt.")

#Ergänzen Sie fehlende Werte nach Datentyp
#0 für float
#Im Falle eines Objekts'NA'
na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() #float64
na_obj_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist() #object
#Ersetzen Sie 0, wenn der Typ float64 fehlt
for na_float_col in na_float_cols:
    alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
#Wenn der Objekttyp fehlt'NA'Ersatz
for na_obj_col in na_obj_cols:
    alldata.loc[alldata[na_obj_col].isnull(),na_obj_col] = 'NA'

Numerische Indizes mit fehlenden Werten

alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() スクリーンショット 2020-06-15 11.52.37.png

Indizes mit fehlenden Werten in kategorialen Variablen

alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist() スクリーンショット 2020-06-15 11.55.30.png

Ersetzen Sie einen fehlenden Wert vom numerischen Typ

for na_float_col in na_float_cols:
    alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0

Über jetzt aber immer wieder für in

Ich werde vorerst darüber lesen. Die Reihenfolge der Variablen und Objekte ist umgekehrt zu der in PHP geschriebenen (ich weiß nicht, ob es korrekt ist).

Es ist hartnäckig, aber .isnull ()

Versuchen Sie, "na_float_col" und "alldata [na_float_col]" auszugeben. Das erste, was zu betrachten ist, ist die Eisenplatte zur Überprüfung der Funktionsweise des iterativen Prozesses.

Über .loc

alldata.loc[alldata[na_float_col].isnull(),na_float_col]

Legen Sie einen Wert für den fehlenden Wert fest

Geben Sie in einer Matrix an und geben Sie "0.0" nur für fehlende Werte ein. alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0

Vervollständigung fehlender Werte für kategoriale Variablen

Ergebnis der fehlenden Wertvervollständigung

Jedes Element ist zu detailliert, um es zu sehen, aber Sie sollten in der Lage sein, dies zu tun.

Ausgabeergebnis von alldata スクリーンショット 2020-06-15 12.17.07.png

Dummy von kategorialen Variablen

Ich dachte, ich würde es tun, aber die Zeit ist abgelaufen, deshalb möchte ich es als Vorbereitung für "Dummy-kategoriale Variablen" beenden. Ist es so, als würde man es quantifizieren, damit es analysiert werden kann? .. .. ??

Das ist es.

Es dauerte länger als erwartet, um die fehlenden Werte zu vervollständigen. Ich frage mich, ob dies eine Python-Falle ist, die alles in einer Zeile zusammenfasst (ich hoffe, es wird keine Falle oder so, wenn ich mich daran gewöhne).

Es ist fast Zeit für die eigentliche Behandlung und ich freue mich darauf, die Kleidung zu riechen, die ich trage.

Recommended Posts

[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (5. Dummy von kategorialen Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
Ergänzung der fehlenden titanischen Werte von kaggle und Erstellung von Features