Scraping à l'aide de la syntaxe Python 3.5 Async

En tant que méthode de scraping avec Python, il existe une méthode d'utilisation des bibliothèques existantes telles que Scrapy et Demiurge, mais Cette fois, je vais essayer de créer le mien en utilisant la syntaxe Async ajoutée à partir de Python 3.5.

Je n'expliquerai pas ce qu'est async / await. Pour savoir comment utiliser la syntaxe async / await, l'article ici a été utile.

environnement

Python3.5.0
beautifulsoup4==4.4.1

How To

D'abord à partir de la partie téléchargement du site Web

import asyncio
import urllib.request


class Downloader:
    def __init__(self, urls):
        self.urls = urls

    def run(self):
        loop = asyncio.get_event_loop()
        return loop.run_until_complete(self.fetch())

    async def fetch(self):
        return await asyncio.wait([self.download(i, url) for i, url in enumerate(self.urls)])

    async def download(self, n, url):
        request = urllib.request.Request(url)
        html = urllib.request.urlopen(request).read()
        print("{0} {1} download finish...".format(n, url))
        return html


if __name__ == "__main__":
    downloader = Downloader([
        "https://www.python.org/", 
        "https://www.python.org/about/", 
        "https://www.python.org/downloads/"
    ])

    downloader.run()

résultat

1 https://www.python.org/about/ download finish
2 https://www.python.org/downloads/ download finish
0 https://www.python.org/ download finish

La particularité du code est qu'il exécute la méthode de téléchargement en parallèle. Vous pouvez voir qu'ils téléchargent de manière asynchrone au lieu de les télécharger un par un de manière synchrone.

Grattage

Avec cela seul, je viens de télécharger le HTML et l'analyse est gênante, je vais donc modifier le code pour ajouter un analyseur. Cette fois, nous utiliserons BeautifulSoup pour obtenir le contenu de la balise Title du site Web.

import asyncio
import urllib.request
from bs4 import BeautifulSoup


class Scraping:
    def __init__(self, urls):
        self.urls = urls

    def run(self):
        loop = asyncio.get_event_loop()
        return loop.run_until_complete(self.fetch())

    async def fetch(self):
        return await asyncio.wait(
            [self.scraping(url) for url in self.urls]
        )

    async def scraping(self, url):
        request = urllib.request.Request(url)
        html = urllib.request.urlopen(request).read()
        bs = BeautifulSoup(html, "html.parser")
        print(bs.title.string)


if __name__ == "__main__":
    scraping = Scraping([
        "https://www.python.org/", 
        "https://www.python.org/about/", 
        "https://www.python.org/downloads/"
    ])

    scraping.run()

résultat

Welcome to Python.org
Download Python | Python.org
About Python™ | Python.org

Résumé

C'est facile, mais je peux maintenant mettre en œuvre mon propre processus de grattage. Après cela, en implémentant la fonction d'analyse, cela devient un cadre parfait. Pour l'exploration, je pense que vous devriez vous référer à Crawler / Web Scraping Advent Calendar etc.

Par rapport à 3.4 dans la syntaxe Async,

Il n'est plus nécessaire d'ajouter un décorateur @ asyncio.coroutine </ code> lors de la définition d'un collout, et il est complet avec async def.


La syntaxe qui était facilement confondue avec  yield from </ code> et le générateur est maintenant une instruction  await </ code>, qui est plus simple et plus facile à comprendre.
Je pense que c'est.


Tout ce code est publié sur Github, veuillez donc vous y référer si vous en avez.
référence

asyncio - E / S asynchrones, boucles d'événements, collouts et tâches
PEP 0492 -- Coroutines with async and await syntax
Gestion des collouts avec async et await introduit à partir de Python 3.5
Beautiful Soup Documentation










        
          
          
            Recommended Posts
            

            
            
              

                  Scraping à l'aide de la syntaxe Python 3.5 Async
              
            
            
              
                  Scraping à l'aide de Python 3.5 async / await
              
            
            
              
                  Scraping à l'aide de Python
              
            
            
              
                  Web scraping avec Selenium (Python)
              
            
            
              
                  [Scraping] Scraping Python
              
            
            
              
                  Mémo de raclage Python
              
            
            
              
                  Scraping Python get_ranker_categories
              
            
            
              
                  Grattage avec Python
              
            
            
              
                  Grattage avec Python
              
            
            
              
                  [Débutant] Scrapage Web Python facile à comprendre à l'aide de Google Colaboratory
              
            
            
              
                  Commencez à utiliser Python
              
            
            
              
                  Jouer Python async
              
            
            
              
                  Python racle eBay
              
            
            
              
                  Grattage Python get_title
              
            
            
              
                  Scraping de sites Web à l'aide de JavaScript en Python
              
            
            
              
                  avec syntaxe (Python)
              
            
            
              
                  Python: grattage partie 1
              
            
            
              
                  [Python] Gratter une table avec Beautiful Soup
              
            
            
              
                  Syntaxe de contrôle de la syntaxe Python
              
            
            
              
                  Python: grattage, partie 2
              
            
            
              
                  J'ai essayé le web scraping en utilisant python et sélénium
              
            
            
              
                  Un chercheur d'une société pharmaceutique a résumé le raclage Web à l'aide de Python
              
            
            
              
                  Grattage en Python (préparation)
              
            
            
              
                  Essayez de gratter avec Python.
              
            
            
              
                  Manipuler Redmine à l'aide de Python Redmine
              
            
            
              
                  Séquence de Fibonacci utilisant Python
              
            
            
              
                  UnicodeEncodeError: 'cp932' pendant le scraping Python
              
            
            
              
                  Principes de base du grattage Python
              
            
            
              
                  Grattage avec Python + PhantomJS
              
            
            
              
                  python async / attend curio
              
            
            
              
                  Nettoyage des données à l'aide de Python
              
            
            
              
                  Utilisation des packages Python #external
              
            
            
              
                  Câblage Communication Pi-SPI avec Python
              
            
            
              
                  Syntaxe de contrôle Python (mémoire)
              
            
            
              
                  Calcul de l'âge à l'aide de python
              
            
            
              
                  Rechercher sur Twitter avec Python
              
            
            
              
                  Grattage avec du sélénium [Python]
              
            
            
              
                  Scraping avec Python + PyQuery
              
            
            
              
                  Identification de nom à l'aide de python
              
            
            
              
                  Notes sur l'utilisation de sous-processus Python
              
            
            
              
                  Essayez d'utiliser Tweepy [Python2.7]
              
            
            
              
                  Scraping RSS avec Python
              
            
            
              
                  Aplatir à l'aide du rendement Python de
              
            
            
              
                  J'ai essayé de gratter avec Python
              
            
            
              
                  Benchmark des performances de thread léger utilisant async / await implémenté dans Python 3.5
              
            
            
              
                  Enregistrer des images à l'aide de requêtes python3
              
            
            
              
                  Web scraping avec python + JupyterLab
              
            
            
              
                  Grattage avec Selenium + Python Partie 1
              
            
            
              
                  [S3] CRUD avec S3 utilisant Python [Python]
              
            
            
              
                  [Python] Scraping dans AWS Lambda
              
            
            
              
                  python super débutant essaie de gratter
              
            
            
              
                  [Python] Essayez d'utiliser le canevas de Tkinter
              
            
            
              
                  Grattage avec chromedriver en python
              
            
            
              
                  Grattage festif avec Python, scrapy
              
            
            
              
                  Utilisation de Quaternion avec Python ~ numpy-quaternion ~
              
            
            
              
                  Essayez d'utiliser Kubernetes Client -Python-
              
            
            
              
                  [Python] Utilisation d'OpenCV avec Python (basique)