AWS Lambda prend en charge Python, j'ai donc essayé de l'utiliser. Cette fois, je l'ai utilisé pour copier des fichiers entre des seaux de S3, mais j'aimerais le partager car il y avait différents points d'intérêt.

Chose que tu veux faire

Je souhaite copier un fichier qui existe dans le bucket de s3 vers un autre bucket
La copie avec un seul processus est lente, je souhaite donc copier des buckets avec plusieurs processus en même temps
Je souhaite utiliser AWS Lambda Python

Je l'ai essayé principalement pour la troisième raison.

Ce que j'ai fait

J'ai créé une fonction Lambda pour obtenir un bucket s3 et implémenté un script à copier en parallèle.

Création d'une fonction Lambda

Créez une fonction Lambda.

--Cliquez sur Créer une fonction Lambda

Select blue print Sélectionnez le modèle que vous souhaitez utiliser.

--Sélectionnez hello-world-python

Configure function

Effectuez les réglages de base pour la fonction Lambda.

--Name: Nom de la fonction Lambda

Exemple: s3LogBucketCopy --Description: Description de la fonction Lambda
Exemple: copier les journaux entre les buckets --Runtime: environnement d'exécution
- Python2.7

Lambda function code

Fournit le code de programme à exécuter.

Vous pouvez choisir parmi les trois types suivants.

Modifiez le code à l'écran
Téléchargez le code depuis votre propre machine
Téléchargez le code depuis s3

Si vous devez importer une bibliothèque Python standard ou une bibliothèque autre que boto3, vous devez choisir la méthode 2 ou 3.

Les détails sont résumés dans ici, veuillez donc vous référer à ceux qui sont intéressés.

Au fait, cette fois, puisque seules la bibliothèque standard et boto3 sont utilisées, elle est implémentée par la méthode 1.

Nous le mettrons en œuvre plus tard, donc nous ne le changerons pas au début.

Lambda function handler and role --Handler: nom du gestionnaire à exécuter (nom du module, nom de la fonction)

Exemple: lambda_function.s3_log_copy_handler --Rôle: autorisation d'exécution Lambda (autorisation d'accès aux ressources telles que s3) --Exemple: Rôle d'exécution S3

Advanced settings Définissez la mémoire disponible et le délai d'expiration.

--Memory (Mo): mémoire disponible

Exemple: 128 Mo --Timeout: délai d'expiration
Exemple: 5 min

Review

Vérifiez les paramètres. S'il n'y a pas de problème, sélectionnez Créer une fonction

Implémentation de script

Implémentez le script à copier avec multi_process.

Voici un exemple simple.

#! /user/local/bin/python
# -*- coding:utf-8 -*-

import boto3
from multiprocessing import Process

  

def parallel_copy_bucket(s3client, source_bucket, dest_bucket, prefix):
    '''
Copier des buckets s3 en parallèle
    '''    
    #Copiez le bucket
    def copy_bucket(s3client, dest_bucket, copy_source, key):
        s3client.copy_object(Bucket=dest_bucket, CopySource=copy_source, Key=key)
        
    # list_Notez que vous ne pouvez obtenir que 1000 données par objet.
    result = s3client.list_objects(
        Bucket=source_bucket,
        Prefix=prefix
    )
    #Obtenir la liste des clés de la source de copie et copier
    if 'Contents' in result:
        keys = [content['Key'] for content in result['Contents']]
        p = None
        for key in keys:
            copy_source = '{}/{}'.format(source_bucket, key)
            p = Process(target=copy_bucket, args=(s3client, dest_bucket, copy_source, key))
            p.start()
        if p:
            p.join()


#Handler appelé à l'exécution
def s3_log_copy_handler(event, context):
    source_bucket = event["source_bucket"] #Copier le bucket source
    dest_bucket = event["dest_bucket"]     #Copier le bucket de destination
    prefixes = event["prefixes"]           #Copier les conditions de nom de fichier source
    s3client = boto3.client('s3')
    for prefix in prefixes:
        print("Start loading {}".format(prefix))
        parallel_copy_bucket(s3client, source_bucket, dest_bucket, prefix)
    print("Complete loading")

Essai

Définissez Configure Sample Event à partir du bouton ʻActions`

Définir les paramètres à transmettre au gestionnaire

Par exemple, si la configuration de s3 est la suivante

- samplelogs.source  #Copier le bucket source
    - /key1
        - hogehoge.dat
    - /key2
        - fugafuga.dat
- samplelogs.dest    #Copier le bucket de destination

Définissez le JSON comme suit.

`.json`


{
  "source_bucket": "samplelogs.source",
  "dest_bucket": "samplelogs.dest",
  "prefixes" : [
    "key1",
    "key2"
  ]
}

Où j'étais accro

Autoriser le rôle à traiter le compartiment s3

La règle d'exécution S3 par défaut définit uniquement «s3: GetObject» et «s3: PutObject». À ce moment, si vous appelez s3client.list_objects (), vous obtiendrez l'erreur ʻUne erreur client (AccessDenied) s'est produite: Accès refusé. Cette méthode ne peut pas être exécutée avec S3: GetObject et nécessite une autre autorisation d'exécution appelée S3: ListObejct. Par conséquent, vous devez ajouter s3: ListObject` à Policy.

multiprocessing.Pool

Lors de l'exécution dans plusieurs processus, si vous spécifiez un pool, vous obtiendrez l'erreur ʻOSErrors- [Errno 38] Fonction non implémentée`. Il s'agit d'un problème car vous ne disposez pas des autorisations de système d'exploitation nécessaires pour conserver le pool lors de l'exécution sur Lambda. Vous devez déconfigurer le pool et l'exécuter.

Paramètres TimeOut

Lambda doit être configuré pour expirer lorsque le temps d'exécution dépasse la valeur spécifiée. Étant donné que la valeur maximale du délai d'expiration est de 300 s (5 min), l'exécution ne peut pas être terminée pour les éléments qui prennent plus de temps à s'exécuter. Par conséquent, si vous avez un compartiment avec un fichier raisonnablement volumineux, vous devez exécuter la fonction Lambda plusieurs fois.

Impressions

Je pense que c'est un bon endroit pour l'utiliser, mais je pense qu'il convient aux traitements légers tels que les alertes, les notifications push et les petits transferts de fichiers. Au contraire, il ne semble pas convenir à l'écriture de traitements lourds. De plus, maintenant que vous disposez d'un point de terminaison d'API, il peut convenir aux API ultra-légères. Je vais l'essayer la prochaine fois.

Voici un résumé des points heureux et malheureux en utilisant la fonction Lambda.

--Je suis heureux

Pas besoin de configurer une instance pour écrire un simple traitement par lots
Implémentation par lots facile avec des paramètres minimaux
L'accès aux ressources dans aws est facile car il peut être géré par le rôle IAM --boto3 peut être utilisé en standard --Malheureusement
Non compatible avec la série Python 3 --Importer des packages autres que les packages standard et boto3 est gênant
Il est difficile de gérer le code créé --Le délai d'expiration maximum est court

référence

https://boto3.readthedocs.org/en/latest/ http://qiita.com/m-sakano/items/c53ba194a8574f44e78a http://www.perrygeo.com/running-python-with-compiled-code-on-aws-lambda.html

Connectez-vous à s3 avec AWS Lambda Python