Wenn Sie ein Dateningenieur oder ein Datenverwalter sind, können Sie verschiedene Tools verwenden, um die Inkonsistenz von Daten zu überprüfen, oder Sie können sie mit SQL drücken, um sie zu überprüfen. In letzter Zeit mache ich oft solche Dinge. Besonders wenn eine neue Datenverknüpfung beginnt, schaue ich oft auf den Inhalt der Daten. Pandas_profiling ist in einem solchen Fall hilfreich.
pip install pandas-profiling[notebook]
import pandas_profiling as pdp
from sklearn.datasets import load_boston
data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")
Ich möchte oft nur die Verteilung der Daten wissen, deshalb füge ich Optionen hinzu, damit ich die Korrelation nicht berechne. Es wird auch in HTML ausgegeben, um es mit anderen Personen zu teilen.
Wenn Sie es auf dem Jupyter-Notizbuch ausführen, wird die Prozessleiste wie unten gezeigt angezeigt und Sie können den Verarbeitungsstatus sehen. Sie können den Datenstatus jedes Elements anzeigen. Ich interessiere mich besonders für fehlende Werte, was sehr nützlich ist, da es die Anzahl und den Prozentsatz fehlender Werte anzeigt.
Recommended Posts