[Python-Anfängermemo] Bedeutung und Methode zur Bestätigung des fehlenden NaN-Werts vor der Datenanalyse

Ich bin neu in Python / maschinelles Lernen. Aufgrund der Begeisterung für die Analyse der Daten blieb ich stecken, weil ich es versäumt hatte, den fehlenden Wert zu bestätigen, und werde daher eine Notiz als Reflexion hinterlassen.

Fazit

Was ist passiert

Was ist ein fehlender Wert?

Gegenmaßnahmenempfehlung zu Beginn der Datenanalyse

―― ① Überprüfen Sie in erster Linie, ob in den Daten Werte fehlen. --Verwenden Sie `isnull (). Any ()`

#Beispiel:countries.Angenommen, csv enthält grundlegende statistische Daten für jedes Land
import pandas as pd
df_example = pd.read_csv("hogehoge/example.csv").copy()

print(df_example.isnull().any())
#Beispiel
Id            False
Name          False
Population    True
GDP           True
Region        False
life_expct    False

-② Führen Sie Ersatzarbeiten in der Spalte durch, in der das Vorhandensein fehlender Werte bestätigt wird.

#Wo die Spalte für die Existenz fehlender Werte gefunden wird
df_example.loc[df_example['Population'].isnull(), 'Population'] = 0

Hinweis

Zusammenfassung

――Gegeben der Daten ist es wichtig, die fehlenden Werte zu überprüfen, anstatt dorthin zu springen und die Analyse zu starten.

Referenz

(das ist alles)


Ergänzung

――Der Autor stellte fest, dass die spätere Analyse völlig nutzlos sein würde, da die fehlenden Werte in der Eingabeebene des tiefen Lernens gemischt wurden, und ich kam, um diesen Artikel zu schreiben. ―― Zusätzlich zur Bestätigung fehlender Werte gibt es meiner Meinung nach viele Bestätigungsprozesse und Datenbereinigungsprozesse vor der Analyse, z. B. das Zeichnen eines Histogramms zur Suche nach Ausreißern. Ich habe es ab dem 24. März 2020 unterlassen, sie in diesem Artikel zu erwähnen, möchte sie aber nach einer Untersuchung hinzufügen.

Recommended Posts

[Python-Anfängermemo] Bedeutung und Methode zur Bestätigung des fehlenden NaN-Werts vor der Datenanalyse
Empfohlene Bücher und Quellen für die Datenanalyseprogrammierung (Python oder R)
Die Geschichte von Python und die Geschichte von NaN
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
Python: Vorverarbeitung beim maschinellen Lernen: Umgang mit fehlenden / Ausreißern / unausgeglichenen Daten
[Python] Von der morphologischen Analyse von CSV-Daten bis zur CSV-Ausgabe und Diagrammanzeige [GiNZA]
Datenanalyse in Python Zusammenfassung der Quellen, die Anfänger zuerst betrachten sollten
Füllen Sie den fehlenden Wert (null) von DataFrame mit den Werten davor und danach mit pyspark
[Python] Konvertierungsnotiz zwischen Zeitdaten und numerischen Daten
Aufgezeichnete Umgebung für die Datenanalyse mit Python
Holen Sie sich mit Python eine große Menge von Starbas Twitter-Daten und probieren Sie die Datenanalyse Teil 1 aus
Datenanalyse Python
Analyse von Finanzdaten durch Pandas und deren Visualisierung (2)
Verarbeitung von CSV-Daten in voller und halber Breite in Python
[Python of Hikari-] Kapitel 06-02 Funktion (Argument und Rückgabewert 1)
[Python] [Word] [python-docx] Einfache Analyse von Diff-Daten mit Python
[Für Anfänger] So studieren Sie den Python3-Datenanalysetest
Liste der Python-Bibliotheken für Datenwissenschaftler und Dateningenieure
Analyse von Finanzdaten durch Pandas und deren Visualisierung (1)
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
Geschichte der Bildanalyse von PDF-Dateien und Datenextraktion
Liste des Python-Codes, der bei der Big-Data-Analyse verwendet wird
Analyse der Messdaten (2) -Hydrobacter und Anpassung, lmfit Empfehlung-
Visualisierung von Daten anhand einer erklärenden Variablen und einer objektiven Variablen
"Zeitreihenanalyse von Wirtschafts- und Finanzdaten messen" Das Problem am Ende des Kapitels mit Python lösen