Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron

introduction

`Ceci est un article sur l'environnement Mac, mais la procédure est la même pour l'environnement Windows. Veuillez lire et essayer la partie dépendant de l'environnement. ''

Objectif

Après avoir lu cet article jusqu'au bout, vous pourrez:

No.	Aperçu	mot-clé
1	codage	Python
2	Grattage WEB	Selenium,chromedriver,headless-chromium
3	Paramètres Lambda	Lambda

Environnement d'exécution

environnement	Ver.
macOS Catalina	10.15.3
Python	3.7.3
selenium	3.141.0

Code source

Je pense que vous pouvez approfondir votre compréhension en suivant réellement le contenu de l'implémentation et le code source. Veuillez l'utiliser par tous les moyens.

GitHub

Fonctionnalités d'AWS-Lambda

Ce service est un système de paiement à l'utilisation. Notez s'il vous plaît.

Flux global

Écrivez du code Python
Créez un zip pour le téléversement vers Lambda
Créez une fonction Lambda
Téléchargez le zip dans la fonction Lambda
(Supplément) Télécharger à l'aide de couches
Définir les variables d'environnement pour les fonctions Lambda
(Supplément) Définir les variables d'environnement lors de l'utilisation des couches
Configurer Cron pour qu'il s'exécute régulièrement

1. Écrivez du code Python

codage

`app/lambda_function.py`


"""app/lambda_function.py
"""
import os

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By


def lambda_handler(event, context):
    """lambda_handler
    """
    print('event: {}'.format(event))
    print('context: {}'.format(context))

    headless_chromium = os.getenv('HEADLESS_CHROMIUM', '')
    chromedriver = os.getenv('CHROMEDRIVER', '')

    options = Options()
    options.binary_location = headless_chromium
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--single-process')
    options.add_argument('--disable-dev-shm-usage')

    driver = webdriver.Chrome(executable_path=chromedriver, options=options)
    driver.get('https://info.finance.yahoo.co.jp/fx/')
    usd_jpy = driver.find_element(By.ID, 'USDJPY_top_bid').text
    driver.close()
    driver.quit()

    return {
        'status_code': 200,
        'usd_jpy': usd_jpy
    }


if __name__ == '__main__':
    print(lambda_handler(event=None, context=None))

`Pour fonctionner avec Lambda, il est nécessaire de définir Options (). ''

2. Créez un zip pour le téléversement vers Lambda

Création de script

Vous devez changer la version / le chemin de chromedriver et headless-chrome en fonction de votre environnement.
Opération confirmée à partir de mai 2020.

`make_upload.sh`


rm upload.zip
rm -r upload/
rm -r download/

mkdir -p download/bin
curl -L https://chromedriver.storage.googleapis.com/2.41/chromedriver_linux64.zip -o download/chromedriver.zip
curl -L https://github.com/adieuadieu/serverless-chrome/releases/download/v1.0.0-55/stable-headless-chromium-amazonlinux-2017-03.zip -o download/headless-chromium.zip
unzip download/chromedriver.zip -d download/bin
unzip download/headless-chromium.zip -d download/bin

mkdir upload
cp -r download/bin upload/bin
cp app/lambda_function.py upload/
pip install -r app/requirements.txt -t upload/
cd upload/
zip -r ../upload.zip --exclude=__pycache__/* .
cd ../

rm -r upload/
rm -r download/

Créer upload.zip

`command_line.sh`


sh make_upload.sh

3. Créez une fonction Lambda

Conditions préalables

--Compte AWS créé

Rôle de fonction Lambda créé

Création de fonction Lambda

Connectez-vous à AWS
Ouvrez Lambda à partir du service
Sélectionnez «Fonction» dans le sous-menu et cliquez sur «Créer une fonction».
Sélectionnez «Créer à partir de zéro», entrez le «nom de la fonction», «runtime» et «exécuter le rôle», puis cliquez sur «créer une fonction».

4. Téléchargez le zip dans la fonction Lambda

`Je l'ai téléchargé via S3 car il dépassait 10 Mo. ''

télécharger

Affichez la section «code de fonction» de la fonction Lambda
Sélectionnez «Télécharger un fichier .zip»
Sélectionnez ʻupload.zip dans Uploadet cliquez surSave``

Télécharger lorsque la taille du zip dépasse 10 Mo

Téléchargez ʻupload.zip` sur S3
Affichez la section «code de fonction» de la fonction Lambda
Sélectionnez ʻUpload file from Amazon S3`
Saisissez l'URL du lien Amazon S3 et cliquez sur Enregistrer.

5. (Supplément) Télécharger à l'aide de couches

Télécharger le flux

Séparez bin de ʻupload.zip` et créez un zip avec bin seul
Enregistrez bin dans Layers
Ajoutez Layers à la fonction Lambda
Sélectionnez ʻUploader le fichier .zip pour télécharger ʻupload.zip

5-1. Séparez `bin` de ʻupload.zip` et créez un zip avec bin seul

`bin.sh`


bin.zip
├── chromedriver
└── headless-chromium

5-2. Enregistrer `bin` dans `Layers`

Sélectionnez «Calque» dans le sous-menu et cliquez sur «Créer un calque»
Entrez n'importe quel nom
Cliquez sur ʻUpload et sélectionnez bin.zip`
Sélectionnez l'option «Compatible Runtime-Option» et cliquez sur «Créer»

5-3. Ajouter `Layers` à la fonction Lambda

Sélectionnez les «Calques» qui apparaissent au centre de la section «Designer» de la fonction Lambda.
Cliquez sur «Ajouter une couche» de la couche affichée en bas.
Sélectionnez le nom bin.zip enregistré dans Calques et cliquez sur Ajouter

5-4. Sélectionnez ʻUploader le fichier .zip `pour télécharger ʻupload.zip`

6. Définir les variables d'environnement pour les fonctions Lambda

Paramètres des variables d'environnement

Affichez la section «variable d'environnement» de la fonction Lambda

Clé	valeur
CHROMEDRIVER	/var/task/bin/chromedriver
HEADLESS_CHROMIUM	/var/task/bin/headless-chromium

7. (Supplément) Définir les variables d'environnement lors de l'utilisation des couches

Paramètre de variable d'environnement Calques

Affichez la section «variable d'environnement» de la fonction Lambda

Clé	valeur
CHROMEDRIVER	/opt/bin/chromedriver
HEADLESS_CHROMIUM	/opt/bin/headless-chromium

8. Configurer Cron pour qu'il s'exécute régulièrement

Créer Cron

Affichez la section Designer de la fonction Lambda et cliquez sur Ajouter un déclencheur
Dans les paramètres de déclenchement, sélectionnez CloudWatch Events / EventBridge
Dans la règle, sélectionnez «Créer une nouvelle règle»
Dans le nom de la règle, saisissez un "nom de règle"
Dans le type de règle, sélectionnez "Expression de planification"
Dans l'expression de planification, entrez cron (0 17? * MON-FRI *) et cliquez sur ʻAjouter`

Exemple d'expression Cron

la fréquence	formule
10h tous les jours:15 (UTC)	cron(15 10 * * ? *)
Du lundi au vendredi à 18 h:00	cron(0 18 ? * MON-FRI *)
8 h le premier jour de chaque mois:00	cron(0 8 1 * ? *)
Toutes les 10 minutes en semaine	cron(0/10 * ? * MON-FRI *)
8h du lundi au vendredi:00 à 17 h:Toutes les 5 minutes jusqu'à 55	cron(0/5 8-17 ? * MON-FRI *)
9h le premier lundi de chaque mois	cron(0 9 ? * 2#1 *)

Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron

Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron

introduction

Objectif

Environnement d'exécution

Code source

Articles Liés

Fonctionnalités d'AWS-Lambda

Flux global

1. Écrivez du code Python

codage

app/lambda_function.py

2. Créez un zip pour le téléversement vers Lambda

Création de script

make_upload.sh

Créer upload.zip

command_line.sh

3. Créez une fonction Lambda

Conditions préalables

Création de fonction Lambda

4. Téléchargez le zip dans la fonction Lambda

télécharger

Télécharger lorsque la taille du zip dépasse 10 Mo

5. (Supplément) Télécharger à l'aide de couches

Télécharger le flux

5-1. Séparez bin de ʻupload.zip` et créez un zip avec bin seul

bin.sh

5-2. Enregistrer bin dans Layers

5-3. Ajouter Layers à la fonction Lambda

5-4. Sélectionnez ʻUploader le fichier .zip pour télécharger ʻupload.zip

6. Définir les variables d'environnement pour les fonctions Lambda

Paramètres des variables d'environnement

7. (Supplément) Définir les variables d'environnement lors de l'utilisation des couches

Paramètre de variable d'environnement Calques

8. Configurer Cron pour qu'il s'exécute régulièrement

Créer Cron

Exemple d'expression Cron

`app/lambda_function.py`

`make_upload.sh`

`command_line.sh`

5-1. Séparez `bin` de ʻupload.zip` et créez un zip avec bin seul

`bin.sh`

5-2. Enregistrer `bin` dans `Layers`

5-3. Ajouter `Layers` à la fonction Lambda

5-4. Sélectionnez ʻUploader le fichier .zip `pour télécharger ʻupload.zip`