Ein Hinweis zum Löschen von Spalten mit fehlenden Werten.
Verwendete Daten: Kaggle Cources: Mietdaten für Intermediate Machine Learning - Missing Values
Umgebung: Kaggle-Notizbuch
Vorbereitung des Moduls / Betriebssystems, Lesen der Daten
DropColumn.py
#os,Modulimport
import os
import pandas as pd
#Daten lesen
X_full=pd.read_csv('../input/train.csv',index_col='Id')
X_full
hat die folgenden Indizes
DropColumn.py
X_full.columns
Unter ihnen ist die Spalte, die den Defekt enthält
DropColumn.py
cols_missing=[col for col in X_full.columns
if X_full[col].isnull().any()]
cols_missing
Es scheint. Löschen Sie diese alle auf einmal.
DropColumn.py
reduced_X_full=X_full.drop(cols_missing,axis=1)
reduced_X_full
Löschung abgeschlossen.
Verwendung von SimpleImputer
von scikit-learn
SimpleImputer
verwendet statistische Werte wie Median und Mittelwert, um fehlende Werte zu ergänzen.
Zum Beispiel, wenn Sie mit dem Median ergänzen möchten Geben Sie als "imputer = SimpleImputer (Strategie =" Median ")" an.
ImputeValue.py
#Definition von imputer
from sklearn.impute import SimpleImputer
imputer=SimpleImputer(strategy='median')
#X_Ergänzen Sie die fehlenden Werte
imputed_X_full=pd.DataFrame(imputer.fit_transform(X_full))
Bei dieser Rate sind die Spaltennamen von "imputed_X_full" in Ordnung.
ImputeValue.py
imputer_X_full.columns
Spaltennamen rückgängig machen
ImputeValue.py
imputed_X_full.columns=X_full.columns
imputed_X_full.columns
Fertigstellung abgeschlossen.
Recommended Posts