Un chercheur d'une société pharmaceutique a résumé le raclage Web à l'aide de Python

introduction

Ici, nous expliquerons le scraping Web en utilisant Python.

BeautifulSoup

Supposons que vous souhaitiez explorer et gratter une page Web qui affiche le fichier HTML suivant.

<ul class="list-group">
  <li class="list-group-item"><a href="">Élément 1</a></li>
  <li class="list-group-item"><a href="">Élément 2</a></li>
  <li class="list-group-item"><a href="">Élément 3</a></li>
</ul>

Le script Python ressemble à ceci:

import requests
from bs4 import BeautifulSoup


url =URL pour obtenir du HTML
response = requests.get(url)
response.encoding = response.apparent_encoding

bs = BeautifulSoup(response.text, 'html.parser')

ul = bs.select('ul.list-group')

for li in ul[0].select('li.list-group-item'):
    a_tags = li.select('a')
    a_tag = a_tags[0]
    item_name = a_tag.text.strip()

Scrapy

Supposons que vous souhaitiez explorer et gratter un fichier HTML similaire à celui utilisant Beautiful Soup ci-dessus.

<ul class="list-group">
  <li class="list-group-item"><a href="">Élément 1</a></li>
  <li class="list-group-item"><a href="">Élément 2</a></li>
  <li class="list-group-item"><a href="">Élément 3</a></li>
</ul>

import scrapy


class SampleSpider(scrapy.Spider):
    name = 'sample'
    allowd_domains = [domaine]
    start_urls = [
Cible URL
    ]

    def parse_list(self, response):
        ul = response.css('ul.list-group')[0]
        for li in ul.css('li.list-group-item'):
            item_url = li.css('a::attr(href)').extract_first()

            yield scrapy.Request(item_url, callback=parse_detail)

    def parse_detail(self, response):
        item_name = response.css('h1.item-name::text').extract_first()
        return item_name

Résumé

Ici, j'ai expliqué la méthode de scraping Web en utilisant Beautiful Soup et Scrapy.

Documents de référence / liens

Quel est le langage de programmation Python? Peut-il être utilisé pour l'IA et l'apprentissage automatique?

Recommended Posts

Un chercheur d'une société pharmaceutique a résumé le raclage Web à l'aide de Python

Un chercheur d'une société pharmaceutique a résumé les opérations de base de données à l'aide de Python

Des chercheurs de sociétés pharmaceutiques ont résumé les déclarations de contrôle Python

Un chercheur d'une société pharmaceutique a résumé le test unitaire Python

Des chercheurs de sociétés pharmaceutiques ont résumé les classes en Python

Un chercheur d'une société pharmaceutique a résumé les fonctions de Python

Un chercheur d'une société pharmaceutique a résumé la gestion des exceptions de Python

Un chercheur d'une société pharmaceutique a résumé les normes de codage Python

Des chercheurs de sociétés pharmaceutiques ont résumé les variables en Python

Un chercheur d'une société pharmaceutique a résumé les expressions canoniques en Python

Un chercheur d'une société pharmaceutique a résumé l'analyse de fichiers en Python

Un chercheur d'une société pharmaceutique a résumé SciPy

Un chercheur d'une société pharmaceutique a résumé RDKit

Les chercheurs des sociétés pharmaceutiques ont résumé scikit-learn

Un chercheur d'une société pharmaceutique a résumé les pandas

Web scraping avec Selenium (Python)

Un chercheur d'une société pharmaceutique a résumé NumPy

Un chercheur d'une société pharmaceutique a résumé Matplotlib

Un chercheur d'une société pharmaceutique a résumé Seaborn

Un chercheur d'une société pharmaceutique a résumé la notation d'inclusion de Python

Un chercheur d'une société pharmaceutique a résumé les opérateurs utilisés en Python

Scraping à l'aide de Python

Un chercheur d'une société pharmaceutique a résumé la structure des données de Python

[Débutant] Scrapage Web Python facile à comprendre à l'aide de Google Colaboratory

J'ai essayé le web scraping en utilisant python et sélénium

Comment installer Python pour les chercheurs de sociétés pharmaceutiques

Scraping à l'aide de Python 3.5 async / await

Web scraping avec python + JupyterLab

Scraping à l'aide de la syntaxe Python 3.5 Async

Web scraping à l'aide d'AWS lambda

Web scraping débutant avec python

Web scraping avec Python Première étape

J'ai essayé webScraping avec python.

Web scraping pour les débutants en Python (1)

Web scraping pour les débutants en Python (4) -1

Un chercheur d'une société pharmaceutique a résumé les règles de description de base de Python

Grattage WEB avec Python (pour mémo personnel)

Premiers pas avec Python Web Scraping Practice

[Note personnelle] Scraping de pages Web en python3

[Scraping] Scraping Python

Site de courses de chevaux Web scraping avec Python

Scraping de sites Web à l'aide de JavaScript en Python

Premiers pas avec Python Web Scraping Practice

[Python] Gratter une table avec Beautiful Soup

Pratiquer le web scraping avec Python et Selenium

Scraping Web facile avec Python et Ruby

raclage Web

[Pour les débutants] Essayez le web scraping avec Python

Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron

Procédure pour utiliser l'API WEB de TeamGant (en utilisant python)

Essayez d'utiliser le framework Web Python Tornado Partie 1

Créer une carte Web en utilisant Python et GDAL

[Python] Flux du scraping Web à l'analyse des données

Essayez d'utiliser le framework Web Python Tornado Partie 2

Web scraping avec Python (prévisions météo)

Web scraping avec Python (cours de l'action)

Mémo de raclage Python