[PYTHON] [Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)

Thema

Klicken Sie hier für den ersten Inhalt Der zweite Teil des Projekts, um den Inhalt des Hands-On zu notieren, dass jeder das berühmte Thema "Hauspreis" -Problem von Kaggle herausfordern wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo.

Die heutige Arbeit

Bestätigung fehlender Werte (kann nicht abgeschlossen werden)

Zusammenfassend scheint es einige fehlende Werte zu geben.

Fehlender Status der Trainingsdaten (fehlender Wert)

train.isnull().sum()[train.isnull().sum()>0].sort_values(ascending=False)

Fehlender Wert

Wenn Sie eine Datendatei vorbereiten, müssen Sie einen numerischen Wert eingeben, auch wenn die Daten fehlen. Der eingegebene numerische Wert zeigt jedoch an, dass tatsächlich keine Daten vorhanden waren. Daher müssen diese vom Analyseziel ausgeschlossen werden. Geben Sie daher einen Wert (fehlender Wert) ein, der sich deutlich von anderen gültigen Daten unterscheiden lässt.

.isnull()

.sum()

.sort_values()

Fehlende Testdaten

Die Erklärung ist die gleiche wie die Trainingsdaten, daher werde ich sie weglassen.

test.isnull().sum()[test.isnull().sum()>0].sort_values(ascending=False)

Status des Trainingsdatenverlusts (Datentyp)

.index.tolist()

#Überprüfen Sie den Datentyp der Spalte, die den Fehler enthält
na_col_list = alldata.isnull().sum()[alldata.isnull().sum()>0].index.tolist() #Listen Sie Spalten mit Fehlern auf
alldata[na_col_list].dtypes.sort_values() #Datentyp

.dtypes

スクリーンショット 2020-05-25 12.21.40.png

Mangelsituationen verstehen und damit umgehen

Dies ist eine Beschreibung der Meinungen zum statistischen Umgang mit Daten. Wir empfehlen, dass Sie es normal lesen und verstehen. Eine Geschichte, die sich vom Programmierverständnis unterscheidet.

Sowohl Trainingsdaten als auch Testdaten fehlen erheblich. In diesem Fall möchten Sie die Spalte mit vielen Fehlern löschen. Zuvor verfügt Kaggle jedoch über ein Dokument mit detaillierten Angaben zu Variablen. Schauen wir uns das also zuerst an. Wenn Sie die Daten von Kaggle herunterladen, werden Sie feststellen, dass sie auch eine Datei mit dem Namen "data_description.txt" enthalten. Diese Datei beschreibt, welche Daten in den Variablen gespeichert sind. Dann können Sie sehen, dass die Mehrzahl der Mängel nicht bedeutet, dass keine Informationen vorhanden sind, sondern dass die Mängel selbst Informationen sind. Schauen wir uns zum Beispiel PoolQC (Poolqualität) an, das die meisten Mängel aufweist. Der Verlust dieser Variablen bedeutet, dass der Pool im Haus nicht vorhanden ist und der Datenverlust selbst eine Information ist. Bei anderen Variablen (kategorialen Variablen) bedeutet der Mangel lediglich, dass die Einrichtung oder Ausrüstung nicht vorhanden ist. Bei numerischen Variablen bedeutet der Mangel nur, dass der belegte Bereich Null ist und nicht ohne Informationen. Daher wird die folgende Vervollständigung für den Verlust von kategorialen Variablen und numerischen Variablen durchgeführt.

Das ist es.

Hmmm. Ich habe mir nur die Daten angesehen.

Recommended Posts

[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (5. Dummy von kategorialen Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
Vorhersage der Immobilienpreise (Rendite durch lineare Regression (kaggle)) ver1.0
So suchen Sie nach fehlenden Werten (Kaggle: House Prices)