Ich bin ausgelagert, um Daten von Kundenunternehmen zu analysieren. Neulich erhielt ich eine Anfrage von einem Kunden, das Produkt zu bewerten, um die Einführung von [Paxata] in Betracht zu ziehen (https://www.paxata.com/), und ich hatte die Möglichkeit, Paxata probeweise auszuprobieren. Paxata ist ein Datenaufbereitungstool, das DataRobot 2019 erworben hat [^ 1]. Es gibt zwei Muster, die entweder abonniert oder in die VM von Azure / AWS eingefügt werden können. Diesmal war es das letztere.
Es ist nur ein Eindruck. Ob jedes seine Vor- oder Nachteile hat, hängt von der Zeit und dem Fall ab.
――Obwohl es nicht codiert ist, sind einige Programmierfähigkeiten erforderlich
Paxata besteht aus drei Komponenten:
# | Komponente | Erläuterung |
---|---|---|
1 | Bibliothek | Datensätze verwalten (die Projektausgabe wird auch hier verwaltet) |
2 | Projekt | Definition der Datenverarbeitung |
3 | Projektablauf | Definition des Projektverarbeitungsablaufs und des Ausführungsplans |
Bei der Entwicklung
Das ist der allgemeine Fluss.
Wenn Sie versuchen, eine CSV-Datei zu importieren, sieht dies folgendermaßen aus. Die Daten wurden von [hier] ausgeliehen (https://opendata.pref.saitama.lg.jp/data/dataset/covid19-jokyo).
Eine Funktion namens "Profil" gibt Ihnen Informationen zu grundlegenden Statistiken und Kategorien für jede Spalte.
Profilergebnisse werden auch in der Bibliothek verwaltet.
Erstellen wir ein Projekt mit den importierten Daten.
Wenn Sie versuchen, den Datentyp einer Spalte zu ändern oder zu ersetzen, erhalten Sie eine Vorschau des Verarbeitungsergebnisses wie folgt.
Sie können auch neue Spalten mit Funktionen wie Excel mit einem Tool namens "Berechnung" erstellen.
Die Grammatik war ziemlich streng.
Sie können auch mit einem Tool namens "Aggregat" aggregieren. Dies ist jedoch eine Art von Aggregation, die Sie als neue Spalte hinzufügen, wie Sie sie beispielsweise für die Count-Codierung verwenden würden.
Verwenden Sie für die normale (?) Aggregation ein Werkzeug namens "Form".
Lassen Sie uns das erstellte Projekt planen. Neben dem Zeitintervall können Sie auch das Crontab-Format angeben.
Es sieht so aus, wenn es in einem Diagramm angezeigt wird. Ich fürchte, es gibt nur ein Projekt ...
Wenn es ausgeführt wird, sieht es so aus.
Das Verarbeitungsergebnis wird in der Bibliothek als Antwortsatz verwaltet.
Dieser Artikel wurde mit Genehmigung unserer Kundenunternehmen und Paxata-Händler verfasst.
Recommended Posts