[PYTHON] J'ai touché à l'outil de préparation de données Paxata

Je suis externalisé pour analyser les données des entreprises clientes. L'autre jour, j'ai reçu une demande d'un client pour évaluer le produit afin d'envisager l'introduction de Paxata, et j'ai eu l'opportunité d'essayer Paxata à titre d'essai. Paxata est un outil de préparation de données acquis par DataRobot en 2019 [^ 1]. Il existe deux modèles à utiliser, soit vous abonner, soit les mettre dans la machine virtuelle d'Azure / AWS, et cette fois, c'était le dernier.

Impressions

C'est juste une impression. Le fait que chacun ait ses avantages ou ses inconvénients dépend du moment et du cas.

―― Même s'il ne s'agit pas de codage, une certaine capacité de réflexion en programmation est requise

Fonctionnement réel

Paxata se compose de trois éléments:

# composant La description
1 Bibliothèque Gérer les jeux de données (la sortie du projet est également gérée ici)
2 projet Définition du traitement des données
3 Flux de projet Définition du flux de traitement du projet et du calendrier d'exécution

Lors du développement

  1. Importez le jeu de données dans la bibliothèque
  2. Définissez le processus dans le projet
  3. Planifiez le traitement dans le flux du projet
  4. Vérifiez le résultat du traitement dans la bibliothèque

Tel est le flux général.

Importer le jeu de données dans la bibliothèque

Si vous essayez d'importer un fichier CSV, il ressemblera à ceci. Les données ont été empruntées à ici. image.png image.png

Une fonctionnalité appelée "Profil" vous donnera des informations sur les statistiques de base et les catégories pour chaque colonne. image.png

Les résultats de profil sont également gérés dans la bibliothèque. image.png

Définir le traitement dans le projet

Créons un projet avec les données importées. image.png

Si vous essayez de modifier ou de remplacer le type de données d'une colonne, vous obtiendrez un aperçu du résultat du traitement comme celui-ci. image.png image.png

Vous pouvez également créer de nouvelles colonnes en utilisant des fonctions comme Excel avec un outil appelé "Calcul". image.png

La grammaire était assez sévère. image.png image.png

Vous pouvez également agréger avec un outil appelé «agréger». Cependant, il s'agit d'un type d'agrégation que vous ajoutez en tant que nouvelle colonne, par exemple lorsque vous comptez encoder. image.png

Pour l'agrégation ordinaire (?), Utilisez un outil appelé "Forme". image.png

Planifier le traitement dans le flux du projet

Planifions le projet créé. En plus de l'intervalle de temps, vous pouvez également spécifier le format crontab. image.png

Cela ressemble à ceci lorsqu'il est affiché dans un graphique. J'ai peur qu'il n'y ait qu'un seul projet ... image.png

Une fois exécuté, cela ressemble à ceci. image.png

Le résultat du traitement est géré dans la bibliothèque comme un ensemble de réponses. image.png

la fin

Cet article a été rédigé avec l'autorisation de nos entreprises clientes et des distributeurs Paxata.

Recommended Posts

J'ai touché à l'outil de préparation de données Paxata
J'ai essayé de toucher l'API Qiita
J'ai essayé l'outil de visualisation OSS, sur-ensemble
J'ai essayé de sauvegarder les données récupérées au format CSV!
J'ai touché HaikuFinder
J'ai recherché Railway Kawayanagi à partir des données
J'ai essayé de sauvegarder les données avec discorde
J'ai touché Flask
[Analyse des données] Dois-je acheter le drapeau Harumi?
J'ai touché certaines des nouvelles fonctionnalités de Python 3.8 ①
[Recette du formateur] J'ai touché le flacon du framework Python.
J'ai essayé de prédire le match de la J League (analyse des données)
J'ai essayé de regrouper les données ECG en utilisant la méthode K-Shape
J'ai essayé d'utiliser l'API de Sakenowa Data Project
Un mémo que j'ai touché au magasin de données avec python
J'ai créé un outil de génération de données texte répétitif "rpttxt"
J'ai touché Wagtail (1) et remplaçons la méthode de sauvegarde.
Rendre l'outil simplement
J'ai touché le Tensorboard de TensorFlow
J'ai compté les grains
J'ai touché AWS Chalice
J'ai essayé d'introduire l'outil de génération de diagramme blockdiag
[Je l'ai fait avec Python] Outil pour la sortie par lots de données XML
J'ai réussi le test d'analyse de données Python, j'ai donc résumé les points
Ce que j'ai vu en analysant les données du marché des ingénieurs
J'ai envoyé les données de Raspberry Pi à GCP (gratuit)