Eines der wichtigsten Dinge bei der Datenanalyse ist die Überprüfung des Dateninhalts. Dieses Mal werde ich eine Methode zur Überprüfung fehlender Werte vorstellen, die auch Nicht-Ingenieure ausführen können.
Importieren Sie Pandas, um den Datensatz zu laden. Dieses Mal werden wir die Daten von train.csv in Kaggles Hauspreisen: Fortgeschrittene Regressionstechniken verwenden.
House Prices: Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques
import pandas as pd
data = pd.read_csv('../train.csv')
Stellen Sie die Daten ein, die Sie in df einchecken möchten. In diesem Fall sehen wir uns die oben eingestellte train.csv an.
#So überprüfen Sie fehlende Werte
df=data #Registrieren Sie den Datensatz in df
total = df.isnull().sum()
percent = round(df.isnull().sum()/df.isnull().count()*100,2)
missing_data = pd.concat([total,percent],axis =1, keys=['Total','Ratio_of_NA(%)'])
type=pd.DataFrame(df[missing_data.index].dtypes, columns=['Types'])
missing_data=pd.concat([missing_data,type],axis=1)
missing_data=missing_data.sort_values('Total',ascending=False)
missing_data.head(20)
print(missing_data.head(20))
print()
print(set(missing_data['Types']))
print()
print("---Categorical col---")
print(missing_data[missing_data['Types']=="object"].index)
print()
print("---Numerical col---")
print(missing_data[missing_data['Types'] !="object"].index)
Mit dem obigen Code können Sie den Prozentsatz der fehlenden Werte ermitteln. Aber wo sind die fehlenden Werte, wie z. B. Zeitreihendatensätze? Es gibt Zeiten, in denen Sie es wissen wollen. Verwenden Sie in solchen Fällen eine Heatmap.
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline
df = data
plt.figure(figsize=(16,16)) #Größenanpassung
plt.title("Missing Value") #Titel
sns.heatmap(df.isnull(), cbar=False) #Heatmap-Anzeige
Durch Registrieren verschiedener Datensätze in der df jedes Codes ist es möglich, automatisch zu bestimmen, ob jede Spalte ein Texttyp oder ein numerischer Typ ist, und fehlende Werte zu visualisieren.
Recommended Posts