Un chercheur d'une société pharmaceutique a résumé le raclage Web à l'aide de Python

introduction

Ici, nous expliquerons le scraping Web en utilisant Python.

BeautifulSoup

Supposons que vous souhaitiez explorer et gratter une page Web qui affiche le fichier HTML suivant.

<ul class="list-group">
  <li class="list-group-item"><a href="">Élément 1</a></li>
  <li class="list-group-item"><a href="">Élément 2</a></li>
  <li class="list-group-item"><a href="">Élément 3</a></li>
</ul>

Le script Python ressemble à ceci:

import requests
from bs4 import BeautifulSoup


url =URL pour obtenir du HTML
response = requests.get(url)
response.encoding = response.apparent_encoding

bs = BeautifulSoup(response.text, 'html.parser')

ul = bs.select('ul.list-group')

for li in ul[0].select('li.list-group-item'):
    a_tags = li.select('a')
    a_tag = a_tags[0]
    item_name = a_tag.text.strip()

Scrapy

Supposons que vous souhaitiez explorer et gratter un fichier HTML similaire à celui utilisant Beautiful Soup ci-dessus.

<ul class="list-group">
  <li class="list-group-item"><a href="">Élément 1</a></li>
  <li class="list-group-item"><a href="">Élément 2</a></li>
  <li class="list-group-item"><a href="">Élément 3</a></li>
</ul>
import scrapy


class SampleSpider(scrapy.Spider):
    name = 'sample'
    allowd_domains = [domaine]
    start_urls = [
Cible URL
    ]

    def parse_list(self, response):
        ul = response.css('ul.list-group')[0]
        for li in ul.css('li.list-group-item'):
            item_url = li.css('a::attr(href)').extract_first()

            yield scrapy.Request(item_url, callback=parse_detail)

    def parse_detail(self, response):
        item_name = response.css('h1.item-name::text').extract_first()
        return item_name

Résumé

Ici, j'ai expliqué la méthode de scraping Web en utilisant Beautiful Soup et Scrapy.

Documents de référence / liens

Quel est le langage de programmation Python? Peut-il être utilisé pour l'IA et l'apprentissage automatique?

Recommended Posts

Un chercheur d'une société pharmaceutique a résumé le raclage Web à l'aide de Python
Un chercheur d'une société pharmaceutique a résumé les opérations de base de données à l'aide de Python
Des chercheurs de sociétés pharmaceutiques ont résumé les déclarations de contrôle Python
Un chercheur d'une société pharmaceutique a résumé le test unitaire Python
Des chercheurs de sociétés pharmaceutiques ont résumé les classes en Python
Un chercheur d'une société pharmaceutique a résumé les fonctions de Python
Un chercheur d'une société pharmaceutique a résumé la gestion des exceptions de Python
Un chercheur d'une société pharmaceutique a résumé les normes de codage Python
Des chercheurs de sociétés pharmaceutiques ont résumé les variables en Python
Un chercheur d'une société pharmaceutique a résumé les expressions canoniques en Python
Un chercheur d'une société pharmaceutique a résumé l'analyse de fichiers en Python
Un chercheur d'une société pharmaceutique a résumé SciPy
Un chercheur d'une société pharmaceutique a résumé RDKit
Les chercheurs des sociétés pharmaceutiques ont résumé scikit-learn
Un chercheur d'une société pharmaceutique a résumé les pandas
Web scraping avec Selenium (Python)
Un chercheur d'une société pharmaceutique a résumé NumPy
Un chercheur d'une société pharmaceutique a résumé Matplotlib
Un chercheur d'une société pharmaceutique a résumé Seaborn
Un chercheur d'une société pharmaceutique a résumé la notation d'inclusion de Python
Un chercheur d'une société pharmaceutique a résumé les opérateurs utilisés en Python
Scraping à l'aide de Python
Un chercheur d'une société pharmaceutique a résumé la structure des données de Python
[Débutant] Scrapage Web Python facile à comprendre à l'aide de Google Colaboratory
J'ai essayé le web scraping en utilisant python et sélénium
Comment installer Python pour les chercheurs de sociétés pharmaceutiques
Scraping à l'aide de Python 3.5 async / await
Web scraping avec python + JupyterLab
Scraping à l'aide de la syntaxe Python 3.5 Async
Web scraping à l'aide d'AWS lambda
Web scraping débutant avec python
Web scraping avec Python Première étape
J'ai essayé webScraping avec python.
Web scraping pour les débutants en Python (1)
Web scraping pour les débutants en Python (4) -1
Un chercheur d'une société pharmaceutique a résumé les règles de description de base de Python
Grattage WEB avec Python (pour mémo personnel)
Premiers pas avec Python Web Scraping Practice
[Note personnelle] Scraping de pages Web en python3
[Scraping] Scraping Python
Site de courses de chevaux Web scraping avec Python
Scraping de sites Web à l'aide de JavaScript en Python
Premiers pas avec Python Web Scraping Practice
[Python] Gratter une table avec Beautiful Soup
Pratiquer le web scraping avec Python et Selenium
Scraping Web facile avec Python et Ruby
raclage Web
[Pour les débutants] Essayez le web scraping avec Python
Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron
Procédure pour utiliser l'API WEB de TeamGant (en utilisant python)
Essayez d'utiliser le framework Web Python Tornado Partie 1
Créer une carte Web en utilisant Python et GDAL
[Python] Flux du scraping Web à l'analyse des données
Essayez d'utiliser le framework Web Python Tornado Partie 2
Web scraping avec Python (prévisions météo)
Web scraping avec Python (cours de l'action)
Mémo de raclage Python