[PYTHON] [Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)

Thema

Der dritte Teil des Projekts, um den Inhalt von Hands-on zu notieren, dass jeder das berühmte Thema "Hauspreis" -Problem von Kaggle herausfordern wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo.

Die heutige Arbeit

Ergänzende Werte ergänzen (mit Vorbereitung abgeschlossen)

Zusammenfassend fehlten einige Werte. Bei näherer Betrachtung bedeutet dies jedoch nicht, dass es nicht fehlt und dass "es gibt keinen Wert" in erster Linie sinnvoll ist.

Mangelsituationen verstehen und damit umgehen

Auszug aus einem Referenzartikel.

Wenn Sie die Daten von Kaggle herunterladen, werden Sie feststellen, dass sie auch eine Datei mit dem Namen "data_description.txt" enthalten. Diese Datei beschreibt, welche Daten in den Variablen gespeichert sind. Dann können Sie sehen, dass die Mehrzahl der Mängel nicht bedeutet, dass keine Informationen vorhanden sind, sondern dass die Mängel selbst Informationen sind. Schauen wir uns zum Beispiel PoolQC (Poolqualität) an, das die meisten Mängel aufweist. Der Verlust dieser Variablen bedeutet, dass der Pool im Haus nicht vorhanden ist und der Datenverlust selbst eine Information ist. Bei anderen Variablen (kategorialen Variablen) bedeutet der Mangel lediglich, dass die Einrichtung oder Ausrüstung nicht vorhanden ist. Bei numerischen Variablen bedeutet der Mangel nur, dass der belegte Bereich Null ist und nicht ohne Informationen. Daher wird die folgende Vervollständigung für den Verlust von kategorialen Variablen und numerischen Variablen durchgeführt.

Kategorische Variablen

Anscheinend ist es ein Systemelement, das die Bedeutung mit dem Code im DB-Wert ausdrückt. Beispiel) 1: männlich, 2: weiblich usw. https://www1.doshisha.ac.jp/~mjin/R/Chap_45/45.html

Numerische Variable

Das heißt, es sieht aus wie Daten, die einfach das Gegenteil der kategorialen Variablen und des quantitativen Werts darstellen.

Ergänzen Sie fehlende Werte für kategoriale Variablen

Beim Speichern wird zunächst der Indexwert für jeden Datentyp herausgenommen (ich versuche, ihn so zu konfigurieren, dass es sinnvoll ist, wenn ich ihn beende, auch wenn ich nicht weiß, was ich sage).

na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() 

Vorbereitung zur Vervollständigung des numerischen Typs

Das ist es.

Es ist seit ungefähr zwei Wochen kostenlos, aber ich werde mein Bestes tun, um es erneut zu aktualisieren. (Es ist an der Zeit, Python aus den Grundlagen einzugeben und neu zu organisieren ... Python scheint alles in einer Zeile zu übertreiben ...)

Recommended Posts

[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
[Python] Arten statistischer Werte (Features) und Berechnungsmethoden
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
Vorhersage der Immobilienpreise (Rendite durch lineare Regression (kaggle)) ver1.0
[Für Anfänger] Lesen Sie die DB-Authentifizierungsinformationen aus Umgebungsvariablen
Vorhersage der Immobilienpreise (Rendite durch lineare Regression (kaggle)) ver1.0