[PYTHON] Überprüfen Sie den Status der Daten mit pandas_profiling

Überblick

Wenn Sie ein Dateningenieur oder ein Datenverwalter sind, können Sie verschiedene Tools verwenden, um die Inkonsistenz von Daten zu überprüfen, oder Sie können sie mit SQL drücken, um sie zu überprüfen. In letzter Zeit mache ich oft solche Dinge. Besonders wenn eine neue Datenverknüpfung beginnt, schaue ich oft auf den Inhalt der Daten. Pandas_profiling ist in einem solchen Fall hilfreich.

Wie installiert man

pip install pandas-profiling[notebook]

Wie benutzt man

import pandas_profiling as pdp
from sklearn.datasets import load_boston

data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)

profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")

Ich möchte oft nur die Verteilung der Daten wissen, deshalb füge ich Optionen hinzu, damit ich die Korrelation nicht berechne. Es wird auch in HTML ausgegeben, um es mit anderen Personen zu teilen.

Ergebnis

Wenn Sie es auf dem Jupyter-Notizbuch ausführen, wird die Prozessleiste wie unten gezeigt angezeigt und Sie können den Verarbeitungsstatus sehen. Sie können den Datenstatus jedes Elements anzeigen. Ich interessiere mich besonders für fehlende Werte, was sehr nützlich ist, da es die Anzahl und den Prozentsatz fehlender Werte anzeigt.

スクリーンショット 2020-07-14 11.02.34.png スクリーンショット 2020-07-14 11.03.20.png

Recommended Posts

Überprüfen Sie den Status der Daten mit pandas_profiling
Überprüfen Sie den Typ der von Ihnen verwendeten Variablen
Scraping der Gewinndaten von Zahlen mit Docker
Ich habe versucht, die API von Sakenowa Data Project zu verwenden
Verstehen Sie den Status des Datenverlusts - Python vs. R.
Überprüfen Sie den Linux-Verteilungstyp und die Version
Überprüfen Sie den Speicherstatus des Servers mit dem Befehl Linux free
Überprüfen Sie den Betriebsstatus des Servers mit dem Linux-Befehl top
[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln
Überprüfen Sie den Rückgabewert mit PEP 380
Überprüfen Sie die Datenzusammenfassung in CASTable
Empfehlung zur Datenanalyse mit MessagePack
Visualisieren Sie den Antwortstatus der Volkszählung 2020
[Maschinelles Lernen] Überprüfen Sie die Leistung des Klassifikators anhand handgeschriebener Zeichendaten
Erläutern Sie den Mechanismus der PEP557-Datenklasse
Überprüfen Sie das Verhalten des Zerstörers in Python
So überprüfen Sie die Version von Django
Holen Sie sich die Spaltenliste und Datenliste von CASTable
Überprüfen Sie die Existenz der Datei mit Python
Versuchen Sie, den Zustand der Straßenoberfläche mithilfe von Big Data des Straßenoberflächenmanagements zu ermitteln
Überprüfen Sie die Richtigkeit der Bewertungsformel "RC" anhand der tatsächlichen professionellen Baseballdaten
Überprüfen Sie den Pfad des importierten Python-Moduls
Visualisieren Sie die Exportdaten des Piyo-Protokolls
Kenntnis der Verwendung der Aurora Severless Data API
Versuchen Sie, die Umweltkonzentration organischer Fluorverbindungen mit offenen Daten auf einer Karte darzustellen
Lassen Sie uns den Bevölkerungsübergang von Matsue City, Präfektur Shimane, mit offenen Daten überprüfen
Überprüfen Sie den Betrieb von OpenCV3, das von Anaconda installiert wurde
[Python] Checklistenelemente alle, alle
Verkürzung der Analysezeit von Openpose mithilfe von Sound
Abschätzung der Wirkung von Maßnahmen anhand von Neigungswerten
Exklusive Veröffentlichung der Django App mit ngrok
Zeigen Sie Epidemiedaten mithilfe des Grafana-Dashboards dynamisch an
[2020Juli] Überprüfen Sie die UDID des iPad unter Linux
Überprüfen Sie das Datum der Flaggenpflicht mit Python
[Pandas] Grundlagen der Verarbeitung von Datumsdaten mit dt
Die Geschichte des Lesens von HSPICE-Daten in Python
Visualisierte den Nutzungsstatus der Spüle im Unternehmen
Versuchen Sie es mit dem Sammlungsmodul (ChainMap) von python3
Einführungsstudie zur Python-Ausgabe von Verkaufsdaten mit tapple-
Bestimmen Sie die Anzahl der Klassen mithilfe der Starges-Formel
Ich habe versucht, den Bildfilter von OpenCV zu verwenden
Übergang von Baseball aus Daten gesehen
Laden Sie die Winddaten der Meteorological Agency herunter
Wie stark ist dein Qiita? Statistiken über die Anzahl der in den Daten angezeigten Beiträge
Berechnung der kürzesten Route nach der Monte-Carlo-Methode
Einfache Möglichkeit, die Quelle der Python-Module zu überprüfen
[Python] [Word] [python-docx] Einfache Analyse von Diff-Daten mit Python
Schneiden Sie einen Teil der Zeichenfolge mit einem Python-Slice aus
Big-Data-Analyse mit dem Datenflusskontroll-Framework Luigi
Zeichnen auf Jupyter mit der Plot-Funktion von Pandas
Ich habe versucht, EKG-Daten mit der K-Shape-Methode zu gruppieren
Den Inhalt der Daten in Python nicht kennen
Erläuterung des Konzepts der Regressionsanalyse mit Python Teil 1
Schreiben Sie Daten mit dem Python-Anforderungsmodul in KINTONE
Posten Sie mit der API auf Twitter in Ihrem Konto
Verwenden wir die offenen Daten von "Mamebus" in Python
Überprüfen Sie, ob in Java BigQuery-Tabellen vorhanden sind
Lassen Sie uns die Emotionen von Tweet mit Chainer (2.) analysieren.
Erläuterung des Konzepts der Regressionsanalyse mit Python Extra 1
Studie aus Python Hour8: Verwenden von Paketen