[PYTHON] Ich habe das Datenaufbereitungstool Paxata berührt

Ich bin ausgelagert, um Daten von Kundenunternehmen zu analysieren. Neulich erhielt ich eine Anfrage von einem Kunden, das Produkt zu bewerten, um die Einführung von [Paxata] in Betracht zu ziehen (https://www.paxata.com/), und ich hatte die Möglichkeit, Paxata probeweise auszuprobieren. Paxata ist ein Datenaufbereitungstool, das DataRobot 2019 erworben hat [^ 1]. Es gibt zwei Muster, die entweder abonniert oder in die VM von Azure / AWS eingefügt werden können. Diesmal war es das letztere.

Impressionen

Es ist nur ein Eindruck. Ob jedes seine Vor- oder Nachteile hat, hängt von der Zeit und dem Fall ab.

――Obwohl es nicht codiert ist, sind einige Programmierfähigkeiten erforderlich

Tatsächlicher Betrieb

Paxata besteht aus drei Komponenten:

# Komponente Erläuterung
1 Bibliothek Datensätze verwalten (die Projektausgabe wird auch hier verwaltet)
2 Projekt Definition der Datenverarbeitung
3 Projektablauf Definition des Projektverarbeitungsablaufs und des Ausführungsplans

Bei der Entwicklung

  1. Importieren Sie den Datensatz in die Bibliothek
  2. Definieren Sie den Prozess im Projekt
  3. Planen Sie die Verarbeitung im Projektablauf
  4. Überprüfen Sie das Verarbeitungsergebnis in der Bibliothek

Das ist der allgemeine Fluss.

Datensatz in Bibliothek importieren

Wenn Sie versuchen, eine CSV-Datei zu importieren, sieht dies folgendermaßen aus. Die Daten wurden von [hier] ausgeliehen (https://opendata.pref.saitama.lg.jp/data/dataset/covid19-jokyo). image.png image.png

Eine Funktion namens "Profil" gibt Ihnen Informationen zu grundlegenden Statistiken und Kategorien für jede Spalte. image.png

Profilergebnisse werden auch in der Bibliothek verwaltet. image.png

Verarbeitung im Projekt definieren

Erstellen wir ein Projekt mit den importierten Daten. image.png

Wenn Sie versuchen, den Datentyp einer Spalte zu ändern oder zu ersetzen, erhalten Sie eine Vorschau des Verarbeitungsergebnisses wie folgt. image.png image.png

Sie können auch neue Spalten mit Funktionen wie Excel mit einem Tool namens "Berechnung" erstellen. image.png

Die Grammatik war ziemlich streng. image.png image.png

Sie können auch mit einem Tool namens "Aggregat" aggregieren. Dies ist jedoch eine Art von Aggregation, die Sie als neue Spalte hinzufügen, wie Sie sie beispielsweise für die Count-Codierung verwenden würden. image.png

Verwenden Sie für die normale (?) Aggregation ein Werkzeug namens "Form". image.png

Planen Sie die Verarbeitung im Projektablauf

Lassen Sie uns das erstellte Projekt planen. Neben dem Zeitintervall können Sie auch das Crontab-Format angeben. image.png

Es sieht so aus, wenn es in einem Diagramm angezeigt wird. Ich fürchte, es gibt nur ein Projekt ... image.png

Wenn es ausgeführt wird, sieht es so aus. image.png

Das Verarbeitungsergebnis wird in der Bibliothek als Antwortsatz verwaltet. image.png

das Ende

Dieser Artikel wurde mit Genehmigung unserer Kundenunternehmen und Paxata-Händler verfasst.

Recommended Posts

Ich habe das Datenaufbereitungstool Paxata berührt
Ich habe versucht, die Qiita-API zu berühren
Ich habe das OSS-Visualisierungstool superset ausprobiert
Ich habe versucht, die verkratzten Daten in CSV zu speichern!
Ich habe HaikuFinder berührt
Ich habe nach Railway Kawayanagi aus den Daten gesucht
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich berührte Flask
[Datenanalyse] Soll ich die Harumi-Flagge kaufen?
Ich habe einige der neuen Funktionen von Python 3.8 touched angesprochen
[Rezept des Trainers] Ich habe die Flasche des Python-Frameworks berührt.
Ich habe versucht, das Spiel in der J League vorherzusagen (Datenanalyse)
Ich habe versucht, EKG-Daten mit der K-Shape-Methode zu gruppieren
Ich habe versucht, die API von Sakenowa Data Project zu verwenden
Ein Memo, dass ich den Datenspeicher mit Python berührt habe
Ich habe ein Tool zur Erzeugung sich wiederholender Textdaten "rpttxt" erstellt.
Ich habe Bachstelze (1) berührt und die Speichermethode überschrieben.
Machen Sie das Werkzeug einfach
Ich habe das Tensorboard von TensorFlow berührt
Ich habe die Körner gezählt
Ich habe AWS Chalice berührt
Ich habe versucht, das Blockdiagramm-Generierungswerkzeug blockdiag einzuführen
[Ich habe es mit Python gemacht] Tool für die Stapelausgabe von XML-Daten
Ich habe den Python-Datenanalysetest bestanden und die Punkte zusammengefasst
Was ich bei der Analyse der Daten des Ingenieurmarktes gesehen habe
Ich habe die Daten von Raspberry Pi an GCP gesendet (kostenlos)