[PYTHON] Glue Studio [AWS]

introduction

Cet article s'appuie sur Glue Studio, publié le 23 septembre 2020, pour créer, exécuter et surveiller des travaux Glue sur une base graphique. AWS Glue

AWS Glue fournit un environnement sans serveur qui utilise la puissance d'Apache Spark pour préparer et traiter les ensembles de données à analyser.

      AWS Glue Documentation       Optimize memory management in AWS Glue

AWS Glue Studio

AWS Glue Studio est une nouvelle interface visuelle pour AWS Glue. Cela permet aux développeurs d'extraction, de transformation et de chargement (ETL) de créer, d'exécuter et de surveiller facilement les tâches AWS Glue ETL. Vous pouvez désormais utiliser une interface visuelle simple pour déplacer et transformer des données afin de créer des tâches qui s'exécutent sur AWS Glue. Vous pouvez ensuite utiliser le tableau de bord AWS Glue Studio Job Execution pour surveiller l'exécution ETL afin de vous assurer que votre travail fonctionne comme prévu.

      What is AWS Glue Studio?

Reportez-vous à Rendre l'ETL plus facile avec AWS Glue Studio sur le blog AWS Big Data. Pour créer et exécuter une tâche dans Glue Studio.

  1. Start creating a Job

    1. Click either the Jobs on the navigation panel or Create and manage jobs, and start creating a job. スクリーンショット (18).png     2. Choose the Blank graph and click the Create button. スクリーンショット (98).png

  1. Adding Data source

    3. Choose the (+) icon.

 On the Node properties tab,     4. For Name, enter input.     5. For Node type, choose S3(Glue Data Catalog table with S3 as the data source.). スクリーンショット (47).png  On the Data source properties - S3 tab,  (make a Data Catalog with Crawler beforehand)     6. For Database, pyspark_input     7. For Table, titanic_data_csv     8. For Partition predicate, leave blank. スクリーンショット (48).png   On the Output schema tab,     9. Check the Schema. スクリーンショット (49).png

  1. Adding Transform

    10. Choose the input node.     11. Choose the (+) icon.  On the Node properties tab,     12. For Name, enter transform.     13. For Node type, choose the Custom transform.     14. For Node parents, choose the input. スクリーンショット (50).png  On the Transform tab,     15. For Code block, write Python code of PySpark. スクリーンショット (76).png   On the Output schema tab,     16. Check the Schema. スクリーンショット (52).png By adding Custom transform, a next node to receive the DynamicFrameCollection is added automatically.

 On the Node properties tab,     17. For Name, enter receive (The word "recieve" is spelled wrong.)     18. For Node type, choose the SelectFromCollection.     19. For Node parents, choose the transform. スクリーンショット (53).png スクリーンショット (54).png スクリーンショット (55).png

  1. Adding Data target

    20. Choose the receive node.     21. Choose the (+) icon.

 On the Node properties tab,     22. For Name, enter output.     23. For Node type, choose the S3(Output data directly in an S3 bucket.).     24. For Node parents, choose the receive. スクリーンショット (56).png  On the Data target properties - S3,     25. For Format, choose the CSV.     26. For Compression Type, None.     27. For S3 Target Location, enter S3 location in the format s3://bucket/prefix/object/ with a trailing slash (/).     28. For Partition, leave blank. スクリーンショット (57).png  On the Output schema tab,     29. Check the Schema. スクリーンショット (58).png

  1. Script

スクリーンショット (75).png スクリーンショット (60).png

  1. Configuring the job

    30. IAM Role: AmazonS3FullAccess / AWSGlueConsoleFullAccess スクリーンショット (61).png     31. For Job Bookmark, choose Disable.     32. For Number of retries, optionally enter 1. スクリーンショット (62).png

    33. Choose save.     34. When the job is saved, choose Run. スクリーンショット (63).png

  1. Monitoring the job

    35. In the AWS Glue Studio navigation panel, choose Monitoring. スクリーンショット (67).png スクリーンショット (71).png スクリーンショット (72).png     35. In the Glue console, check the Glue Job. スクリーンショット (74).png

J'ai pu créer, exécuter et surveiller le travail.

C'est tout pour le sujet, mais voici un aperçu de ce que vous pouvez faire avec un service appelé Glue. Cette architecture est un exemple d'infrastructure de traitement de données qui effectue un traitement par lots à l'aide de Glue.

1. Mettre des données dans S3 déclenche CloudWatch et CloudWatch Les fonctions de l'étape cible commencent 2. Step Functions reçoit la fonction de Lambda, du robot d'exploration de Glue et de PySpark Exécuter la tâche pour S3 3. Exportez les données converties par PySpark vers S3

Sommaire

J'ai utilisé Glue Studio pour créer et exécuter des travaux Glue sur une base graphique.

Recommended Posts

Glue Studio [AWS]
Importez vos propres fonctions avec AWS Glue
Écraser les données dans RDS avec AWS Glue