Klicken Sie hier für den ersten Inhalt Der zweite Teil des Projekts, um den Inhalt des Hands-On zu notieren, dass jeder das berühmte Thema "Hauspreis" -Problem von Kaggle herausfordern wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo.
Zusammenfassend scheint es einige fehlende Werte zu geben.
train.isnull().sum()[train.isnull().sum()>0].sort_values(ascending=False)
Wenn Sie eine Datendatei vorbereiten, müssen Sie einen numerischen Wert eingeben, auch wenn die Daten fehlen. Der eingegebene numerische Wert zeigt jedoch an, dass tatsächlich keine Daten vorhanden waren. Daher müssen diese vom Analyseziel ausgeschlossen werden. Geben Sie daher einen Wert (fehlender Wert) ein, der sich deutlich von anderen gültigen Daten unterscheiden lässt.
.isnull()
.sum()
.sum (): Vertrauter Zusatz. Es addiert sich sowohl vertikal als auch horizontal durch Angabe eines Arguments.
Referenz: https://deepage.net/features/pandas-sum.html
Wenn das Ergebnis nur von train.isnull () ausgegeben wird. Sum ()
[train.isnull (). Sum ()> 0]: Das Gefühl, dass nur Spalten mit fehlenden Elementen als Schlüssel angegeben und angeordnet werden.
Wenn das Ergebnis nur mit train.isnull () ausgegeben wird. Sum () [train.isnull (). Sum ()> 0]
.sort_values()
Die Erklärung ist die gleiche wie die Trainingsdaten, daher werde ich sie weglassen.
test.isnull().sum()[test.isnull().sum()>0].sort_values(ascending=False)
.index.tolist()
#Überprüfen Sie den Datentyp der Spalte, die den Fehler enthält
na_col_list = alldata.isnull().sum()[alldata.isnull().sum()>0].index.tolist() #Listen Sie Spalten mit Fehlern auf
alldata[na_col_list].dtypes.sort_values() #Datentyp
index ()
? Ich dachte, aber es scheint anders.na_col_list = alldata.isnull (). Sum () [alldata.isnull (). Sum ()> 0] .index.tolist ()
.dtypes
alldata [na_col_list] .dtypes
(* Der Inhalt von sort_values () wird in aufsteigender Reihenfolge weggelassen)Dies ist eine Beschreibung der Meinungen zum statistischen Umgang mit Daten. Wir empfehlen, dass Sie es normal lesen und verstehen. Eine Geschichte, die sich vom Programmierverständnis unterscheidet.
Sowohl Trainingsdaten als auch Testdaten fehlen erheblich. In diesem Fall möchten Sie die Spalte mit vielen Fehlern löschen. Zuvor verfügt Kaggle jedoch über ein Dokument mit detaillierten Angaben zu Variablen. Schauen wir uns das also zuerst an. Wenn Sie die Daten von Kaggle herunterladen, werden Sie feststellen, dass sie auch eine Datei mit dem Namen "data_description.txt" enthalten. Diese Datei beschreibt, welche Daten in den Variablen gespeichert sind. Dann können Sie sehen, dass die Mehrzahl der Mängel nicht bedeutet, dass keine Informationen vorhanden sind, sondern dass die Mängel selbst Informationen sind. Schauen wir uns zum Beispiel PoolQC (Poolqualität) an, das die meisten Mängel aufweist. Der Verlust dieser Variablen bedeutet, dass der Pool im Haus nicht vorhanden ist und der Datenverlust selbst eine Information ist. Bei anderen Variablen (kategorialen Variablen) bedeutet der Mangel lediglich, dass die Einrichtung oder Ausrüstung nicht vorhanden ist. Bei numerischen Variablen bedeutet der Mangel nur, dass der belegte Bereich Null ist und nicht ohne Informationen. Daher wird die folgende Vervollständigung für den Verlust von kategorialen Variablen und numerischen Variablen durchgeführt.
Hmmm. Ich habe mir nur die Daten angesehen.
Recommended Posts