[PYTHON] So suchen Sie nach fehlenden Werten (Kaggle: House Prices)

zunaechst

Eines der wichtigsten Dinge bei der Datenanalyse ist die Überprüfung des Dateninhalts. Dieses Mal werde ich eine Methode zur Überprüfung fehlender Werte vorstellen, die auch Nicht-Ingenieure ausführen können.

Datensatz laden

Importieren Sie Pandas, um den Datensatz zu laden. Dieses Mal werden wir die Daten von train.csv in Kaggles Hauspreisen: Fortgeschrittene Regressionstechniken verwenden.

House Prices: Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques

import pandas as pd
data = pd.read_csv('../train.csv')

Anzeige von Elementen mit vielen fehlenden Werten

Stellen Sie die Daten ein, die Sie in df einchecken möchten. In diesem Fall sehen wir uns die oben eingestellte train.csv an.

#So überprüfen Sie fehlende Werte
df=data #Registrieren Sie den Datensatz in df
total = df.isnull().sum()
percent = round(df.isnull().sum()/df.isnull().count()*100,2)

missing_data = pd.concat([total,percent],axis =1, keys=['Total','Ratio_of_NA(%)'])
type=pd.DataFrame(df[missing_data.index].dtypes, columns=['Types'])
missing_data=pd.concat([missing_data,type],axis=1)
missing_data=missing_data.sort_values('Total',ascending=False)
missing_data.head(20)

print(missing_data.head(20))
print()
print(set(missing_data['Types']))
print()
print("---Categorical col---")
print(missing_data[missing_data['Types']=="object"].index)
print()
print("---Numerical col---")
print(missing_data[missing_data['Types'] !="object"].index)

missingvalue.PNG

Visualisierung fehlender Werte

Mit dem obigen Code können Sie den Prozentsatz der fehlenden Werte ermitteln. Aber wo sind die fehlenden Werte, wie z. B. Zeitreihendatensätze? Es gibt Zeiten, in denen Sie es wissen wollen. Verwenden Sie in solchen Fällen eine Heatmap.

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

df = data
plt.figure(figsize=(16,16)) #Größenanpassung
plt.title("Missing Value") #Titel
sns.heatmap(df.isnull(), cbar=False) #Heatmap-Anzeige

heat.png

Zusammenfassung

Durch Registrieren verschiedener Datensätze in der df jedes Codes ist es möglich, automatisch zu bestimmen, ob jede Spalte ein Texttyp oder ein numerischer Typ ist, und fehlende Werte zu visualisieren.

Recommended Posts

So suchen Sie nach fehlenden Werten (Kaggle: House Prices)
[Für Nicht-Programmierer] Wie man Kaggle läuft
Herausforderung Kaggle [Hauspreise]
Python # So überprüfen Sie Typ und Typ für Super-Anfänger
Kaggle House Preise ③ ~ Prognose / Einreichung ~
Kaggle House Preise ② ~ Modellierung ~
Kaggle House Preise ~ ~ Feature Engineering ~
[Python] So tauschen Sie Array-Werte aus
So überprüfen Sie die Linux-Betriebssystemversion
[Python] So extrahieren / löschen / konvertieren Sie eine Matrix mit fehlenden Werten (NaN)
So überprüfen Sie die Version von Django
So erstellen Sie eine * .spec-Datei für pyinstaller.
"Kaggle Memorandum" Fehlende Werte suchen / löschen
[Python] Organisieren der Verwendung für Anweisungen
So überprüfen Sie die Version von opencv mit Python
So installieren Sie das Windows-Subsystem für Linux
Umgang mit aufeinanderfolgenden Werten in MySQL
Verwendung von "deque" für Python-Daten
Verwendung der Fingerabdruckauthentifizierung für KDE
So weisen Sie der Matplotlib-Farbleiste mehrere Werte zu
So verwenden Sie MkDocs zum ersten Mal
So erstellen Sie ein Spigot-Plug-In (für Java-Anfänger)
Verwendung von Template Engine für Network Engineer
So installieren Sie Python für Forscher von Pharmaunternehmen
Verwendung von Datenanalysetools für Anfänger
So überprüfen / extrahieren Sie Dateien im RPM-Paket
Von der Installation von ROS für Windows bis zur Funktionsprüfung
So schreiben Sie einen ShellScript Bash für Anweisung
[ESXi (vCenter)] Hinzufügen einer Netzwerkkarte für CentOS 7.3
Datenbereinigung Umgang mit fehlenden und Ausreißern
Wie man Python für Anfänger schneller macht [numpy]
[Für Anfänger] Wie man Programmierung studiert Private Memo
So finden Sie die Korrelation für kategoriale Variablen
So erzwingen Sie, dass TensorFlow 2.3.0 für CUDA11 + cuDNN8 erstellt wird
Festlegen der CPU-Affinität für Prozessthreads
Überprüfen Sie, wie Sie Azure Key Vault mit Azure SDK für Python verwenden! (Maßnahmen rund um die Zertifizierung)
[Einführung in Azure für Kaggle-Benutzer] Vergleich zum Starten und Verwenden von Azure Notebooks und Azure Notebooks VM
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)