[PYTHON] Glue Studio [AWS]

Einführung

Dieser Artikel nutzt Glue Studio, das am 23. September 2020 veröffentlicht wurde, um Glue-Jobs auf GUI-Basis zu erstellen, auszuführen und zu überwachen. AWS Glue

AWS Glue bietet eine Umgebung ohne Server, die die Leistung von Apache Spark nutzt, um Datasets für die Analyse vorzubereiten und zu verarbeiten.

      AWS Glue Documentation       Optimize memory management in AWS Glue

AWS Glue Studio

AWS Glue Studio ist eine neue visuelle Oberfläche für AWS Glue. Auf diese Weise können Entwickler von Extrahieren, Transformieren und Laden (ETL) auf einfache Weise AWS Glue ETL-Jobs erstellen, ausführen und überwachen. Sie können jetzt eine einfache visuelle Oberfläche verwenden, um Daten zu verschieben und zu transformieren, um Jobs zu erstellen, die auf AWS Glue ausgeführt werden. Anschließend können Sie das AWS Glue Studio-Dashboard für die Jobausführung verwenden, um die ETL-Ausführung zu überwachen und sicherzustellen, dass Ihr Job wie beabsichtigt funktioniert.

      What is AWS Glue Studio?

Siehe ETL mit AWS Glue Studio vereinfachen im AWS Big Data Blog. So erstellen und führen Sie einen Job in Glue Studio aus

  1. Start creating a Job

    1. Click either the Jobs on the navigation panel or Create and manage jobs, and start creating a job. スクリーンショット (18).png     2. Choose the Blank graph and click the Create button. スクリーンショット (98).png

  1. Adding Data source

    3. Choose the (+) icon.

 On the Node properties tab,     4. For Name, enter input.     5. For Node type, choose S3(Glue Data Catalog table with S3 as the data source.). スクリーンショット (47).png  On the Data source properties - S3 tab,  (make a Data Catalog with Crawler beforehand)     6. For Database, pyspark_input     7. For Table, titanic_data_csv     8. For Partition predicate, leave blank. スクリーンショット (48).png   On the Output schema tab,     9. Check the Schema. スクリーンショット (49).png

  1. Adding Transform

    10. Choose the input node.     11. Choose the (+) icon.  On the Node properties tab,     12. For Name, enter transform.     13. For Node type, choose the Custom transform.     14. For Node parents, choose the input. スクリーンショット (50).png  On the Transform tab,     15. For Code block, write Python code of PySpark. スクリーンショット (76).png   On the Output schema tab,     16. Check the Schema. スクリーンショット (52).png By adding Custom transform, a next node to receive the DynamicFrameCollection is added automatically.

 On the Node properties tab,     17. For Name, enter receive (The word "recieve" is spelled wrong.)     18. For Node type, choose the SelectFromCollection.     19. For Node parents, choose the transform. スクリーンショット (53).png スクリーンショット (54).png スクリーンショット (55).png

  1. Adding Data target

    20. Choose the receive node.     21. Choose the (+) icon.

 On the Node properties tab,     22. For Name, enter output.     23. For Node type, choose the S3(Output data directly in an S3 bucket.).     24. For Node parents, choose the receive. スクリーンショット (56).png  On the Data target properties - S3,     25. For Format, choose the CSV.     26. For Compression Type, None.     27. For S3 Target Location, enter S3 location in the format s3://bucket/prefix/object/ with a trailing slash (/).     28. For Partition, leave blank. スクリーンショット (57).png  On the Output schema tab,     29. Check the Schema. スクリーンショット (58).png

  1. Script

スクリーンショット (75).png スクリーンショット (60).png

  1. Configuring the job

    30. IAM Role: AmazonS3FullAccess / AWSGlueConsoleFullAccess スクリーンショット (61).png     31. For Job Bookmark, choose Disable.     32. For Number of retries, optionally enter 1. スクリーンショット (62).png

    33. Choose save.     34. When the job is saved, choose Run. スクリーンショット (63).png

  1. Monitoring the job

    35. In the AWS Glue Studio navigation panel, choose Monitoring. スクリーンショット (67).png スクリーンショット (71).png スクリーンショット (72).png     35. In the Glue console, check the Glue Job. スクリーンショット (74).png

Ich konnte den Job erstellen, ausführen und überwachen.

Das ist alles für das Thema, aber hier ist ein kurzer Blick darauf, was Sie mit einem Dienst namens Glue tun können. Diese Architektur ist ein Beispiel für eine Datenverarbeitungsinfrastruktur, die eine Stapelverarbeitung mit Glue durchführt.

1. Durch das Einfügen von Daten in S3 werden CloudWatch und CloudWatch ausgelöst Zielschrittfunktionen werden gestartet 2. Step Functions erhält die Funktion von Lambda, dem Crawler von Glue und PySpark Job für S3 ausführen 3. Geben Sie die von PySpark in S3 konvertierten Daten aus

Zusammenfassung

Ich habe Glue Studio verwendet, um Glue-Jobs auf GUI-Basis zu erstellen und auszuführen.

Recommended Posts

Glue Studio [AWS]
Importieren Sie Ihre eigenen Funktionen mit AWS Glue
Daten in RDS mit AWS Glue überschreiben