[Python-Anfängermemo] Bedeutung und Methode zur Bestätigung des fehlenden NaN-Werts vor der Datenanalyse
Ich bin neu in Python / maschinelles Lernen.
Aufgrund der Begeisterung für die Analyse der Daten blieb ich stecken, weil ich es versäumt hatte, den fehlenden Wert zu bestätigen, und werde daher eine Notiz als Reflexion hinterlassen.
Fazit
- Bevor Sie mit der Datenanalyse beginnen, sollten Sie nach fehlenden Werten suchen.
- Wenn fehlende Werte gefunden werden, sollten einige Maßnahmen ergriffen werden, z. B. das Überschreiben anderer Daten als fehlender Werte oder das Ausschließen von Zeilen mit fehlenden Werten für die Analyse.
Was ist passiert
- Als ich an einem Datenanalyse-Wettbewerb namens Kaggle teilnahm, analysierte ich eine Datenmenge, die visuell nicht bestätigt werden konnte.
―― Zu diesem Zeitpunkt bemerkte ich nicht, dass der fehlende Wert (NaN) vorhanden war, und das Programm wurde voll mit NaN, und der Fehler hörte nicht auf.
Was ist ein fehlender Wert?
- Not a Number / NaN
- Spezieller Ausdruck, wenn das Verarbeitungsergebnis der Berechnung nicht ausgedrückt werden kann
――Es scheint, dass Sie sehr gründlich studieren müssen, um den Details zu folgen, daher werde ich in diesem Artikel nicht darauf eingehen.
- Da es die Eigenschaft hat, das Berechnungsergebnis mit anderen Zahlen als NaN zurückzugeben, wird das Berechnungsergebnis möglicherweise nicht korrekt erhalten, wenn auch nur ein NaN im Programm enthalten ist.
- Das Ergebnis von
`1 + NaN``` ist`
NaN```
Gegenmaßnahmenempfehlung zu Beginn der Datenanalyse
―― ① Überprüfen Sie in erster Linie, ob in den Daten Werte fehlen.
--Verwenden Sie `isnull (). Any ()`
- Zeigt an, welche Spalten fehlende Werte im Datenrahmen enthalten
- Wenn Sie die fehlenden Werte für df_example wie unten gezeigt überprüfen, können Sie das Vorhandensein fehlender Werte für Bevölkerung und BIP mit *** True *** überprüfen (ich stelle mir vor, dass Sie die genaue Bevölkerung Nordkoreas usw. nicht kennen). Kann auch sein)
#Beispiel:countries.Angenommen, csv enthält grundlegende statistische Daten für jedes Land
import pandas as pd
df_example = pd.read_csv("hogehoge/example.csv").copy()
print(df_example.isnull().any())
#Beispiel
Id False
Name False
Population True
GDP True
Region False
life_expct False
-② Führen Sie Ersatzarbeiten in der Spalte durch, in der das Vorhandensein fehlender Werte bestätigt wird.
- Ich werde eine andere Löschmethode weglassen, wenn die gesamte Spalte aus NaN besteht, und die Verarbeitung beim Löschen der Zeile selbst, anstatt den fehlenden Wert zu ersetzen.
#Wo die Spalte für die Existenz fehlender Werte gefunden wird
df_example.loc[df_example['Population'].isnull(), 'Population'] = 0
Hinweis
- In diesem Fall beachten Sie bitte, ob der zu ersetzende Wert angemessen ist und was bei der späteren Berechnung zu beachten ist.
- Wenn Sie beispielsweise die Grundgesamtheit wie oben durch 0 ersetzen, kann es zwei Muster geben:
―― „Diese Daten werden nur analysiert, um die 30 bevölkerungsreichsten Länder und ihre Merkmale zu berechnen. Dies ist also kein Problem.“
―― "Wir werden die Durchschnittsbevölkerung anhand dieser Daten analysieren. In diesem Fall berechnen wir nur die" Länder, deren Bevölkerungswert nicht 0 ist "und stellen sicher, dass die Nenner- und Zählerwerte korrekt sind."
Zusammenfassung
――Gegeben der Daten ist es wichtig, die fehlenden Werte zu überprüfen, anstatt dorthin zu springen und die Analyse zu starten.
Referenz
(das ist alles)
Ergänzung
――Der Autor stellte fest, dass die spätere Analyse völlig nutzlos sein würde, da die fehlenden Werte in der Eingabeebene des tiefen Lernens gemischt wurden, und ich kam, um diesen Artikel zu schreiben.
―― Zusätzlich zur Bestätigung fehlender Werte gibt es meiner Meinung nach viele Bestätigungsprozesse und Datenbereinigungsprozesse vor der Analyse, z. B. das Zeichnen eines Histogramms zur Suche nach Ausreißern. Ich habe es ab dem 24. März 2020 unterlassen, sie in diesem Artikel zu erwähnen, möchte sie aber nach einer Untersuchung hinzufügen.