Dieser Artikel nutzt Glue Studio, das am 23. September 2020 veröffentlicht wurde, um Glue-Jobs auf GUI-Basis zu erstellen, auszuführen und zu überwachen. AWS Glue
AWS Glue bietet eine Umgebung ohne Server, die die Leistung von Apache Spark nutzt, um Datasets für die Analyse vorzubereiten und zu verarbeiten.
AWS Glue Documentation Optimize memory management in AWS Glue
AWS Glue Studio
AWS Glue Studio ist eine neue visuelle Oberfläche für AWS Glue. Auf diese Weise können Entwickler von Extrahieren, Transformieren und Laden (ETL) auf einfache Weise AWS Glue ETL-Jobs erstellen, ausführen und überwachen. Sie können jetzt eine einfache visuelle Oberfläche verwenden, um Daten zu verschieben und zu transformieren, um Jobs zu erstellen, die auf AWS Glue ausgeführt werden. Anschließend können Sie das AWS Glue Studio-Dashboard für die Jobausführung verwenden, um die ETL-Ausführung zu überwachen und sicherzustellen, dass Ihr Job wie beabsichtigt funktioniert.
Siehe ETL mit AWS Glue Studio vereinfachen im AWS Big Data Blog. So erstellen und führen Sie einen Job in Glue Studio aus
1. Click either the Jobs on the navigation panel or Create and manage jobs, and start creating a job. 2. Choose the Blank graph and click the Create button.
3. Choose the (+) icon.
On the Node properties tab, 4. For Name, enter input. 5. For Node type, choose S3(Glue Data Catalog table with S3 as the data source.). On the Data source properties - S3 tab, (make a Data Catalog with Crawler beforehand) 6. For Database, pyspark_input 7. For Table, titanic_data_csv 8. For Partition predicate, leave blank. On the Output schema tab, 9. Check the Schema.
10. Choose the input node. 11. Choose the (+) icon. On the Node properties tab, 12. For Name, enter transform. 13. For Node type, choose the Custom transform. 14. For Node parents, choose the input. On the Transform tab, 15. For Code block, write Python code of PySpark. On the Output schema tab, 16. Check the Schema. By adding Custom transform, a next node to receive the DynamicFrameCollection is added automatically.
On the Node properties tab, 17. For Name, enter receive (The word "recieve" is spelled wrong.) 18. For Node type, choose the SelectFromCollection. 19. For Node parents, choose the transform.
20. Choose the receive node. 21. Choose the (+) icon.
On the Node properties tab, 22. For Name, enter output. 23. For Node type, choose the S3(Output data directly in an S3 bucket.). 24. For Node parents, choose the receive. On the Data target properties - S3, 25. For Format, choose the CSV. 26. For Compression Type, None. 27. For S3 Target Location, enter S3 location in the format s3://bucket/prefix/object/ with a trailing slash (/). 28. For Partition, leave blank. On the Output schema tab, 29. Check the Schema.
30. IAM Role: AmazonS3FullAccess / AWSGlueConsoleFullAccess 31. For Job Bookmark, choose Disable. 32. For Number of retries, optionally enter 1.
33. Choose save. 34. When the job is saved, choose Run.
35. In the AWS Glue Studio navigation panel, choose Monitoring. 35. In the Glue console, check the Glue Job.
Ich konnte den Job erstellen, ausführen und überwachen.
Das ist alles für das Thema, aber hier ist ein kurzer Blick darauf, was Sie mit einem Dienst namens Glue tun können. Diese Architektur ist ein Beispiel für eine Datenverarbeitungsinfrastruktur, die eine Stapelverarbeitung mit Glue durchführt.
1. Durch das Einfügen von Daten in S3 werden CloudWatch und CloudWatch ausgelöst Zielschrittfunktionen werden gestartet 2. Step Functions erhält die Funktion von Lambda, dem Crawler von Glue und PySpark Job für S3 ausführen 3. Geben Sie die von PySpark in S3 konvertierten Daten ausIch habe Glue Studio verwendet, um Glue-Jobs auf GUI-Basis zu erstellen und auszuführen.