[PYTHON] Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup

contenu de l'étude

Gratter avec une belle soupe

Une bibliothèque qui extrait les informations de HTML et XML et les analyse. Il n'y a pas de fonction de téléchargement, alors utilisez-la en combinaison avec ʻurllib`.

Ci-dessous, l'utilisation de base de Beautiful Soup

# Importer la bibliothèque
from bs4 import BeautifulSoup

html1 = """
<html><body>
 <h1> Grattage </ h1>
 <p> Analyse de page Web </ p>
 <p> Extraction de parties arbitraires </ p>
</body></html>
"""

# Analyse HTML
soup = BeautifulSoup(html1, 'html.parser')

# Extraire des éléments arbitraires
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

print(h1.string)
print(p1.string)
print(p2.string)

Résultat d'exécution

Grattage Extraire des pages Web Extraction de pièces arbitraires

Grattage en utilisant Beautiful Soup et ʻurllib` ensemble

# Importer la bibliothèque
import urllib.request as req
from bs4 import BeautifulSoup

url = "https://api.aoikujira.com/zip/xml/1500042"

res = req.urlopen(url)

# Analyser les données acquises par urlopen ()
soup = BeautifulSoup(res, 'html.parser')

ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string

print(ken, shi, cho)

Les références

J'ai joint le GitHub publié à partir du livre auquel j'ai fait référence. Révision supplémentaire de la technique de développement du scraping Python et de l'apprentissage automatique

Recommended Posts

Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup
Dossier d'apprentissage n ° 18 (22e jour)
Dossier d'apprentissage n ° 28 (32e jour)
Fiche d'apprentissage (3e jour) Méthode de description du sélecteur #CSS #Scraping avec BeautifulSoup
Fiche d'apprentissage 4 (8e jour)
Fiche d'apprentissage 9 (13e jour)
Fiche d'apprentissage 3 (7e jour)
Fiche d'apprentissage 5 (9e jour)
Fiche d'apprentissage 6 (10e jour)
Enregistrement d'apprentissage de la programmation 2ème jour
Fiche d'apprentissage 8 (12e jour)
Fiche d'apprentissage 1 (4e jour)
Fiche d'apprentissage 7 (11e jour)
Fiche d'apprentissage 2 (6e jour)
Fiche d'apprentissage 16 (20e jour)
Dossier d'apprentissage 22 (26e jour)
_ 3ème jour jusqu'à ce qu'une bonne précision soit obtenue par classification des feuilles
_1e jour jusqu'à ce qu'une bonne précision soit obtenue par la classification des feuilles
Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup
Dossier d'apprentissage n ° 21 (25e jour)
Fiche d'apprentissage 13 (17e jour) Kaggle3
Dossier d'apprentissage n ° 17 (21e jour)
Dossier d'apprentissage n ° 24 (28e jour)
Dossier d'apprentissage n ° 19 (23e jour)
Dossier d'apprentissage n ° 29 (33e jour)
Dossier d'apprentissage n ° 23 (27e jour)
Dossier d'apprentissage n ° 25 (29e jour)
Dossier d'apprentissage n ° 20 (24e jour)
Dossier d'apprentissage n ° 27 (31e jour)
Dossier d'apprentissage n ° 14 (18e jour) Kaggle4
Dossier d'apprentissage n ° 15 (19e jour) Kaggle5
Fiche d'apprentissage 11 (15e jour) Participation de Kaggle
Dossier d'apprentissage
Dossier d'apprentissage n ° 1
Dossier d'apprentissage n ° 2
Apprentissage Python jour 4
Dossier d'apprentissage jusqu'à présent
Fiche d'apprentissage Linux ① Planifier
Collectez des données d'apprentissage automatique en grattant des bases de données publiques biosourcées