Une bibliothèque qui extrait les informations de HTML et XML et les analyse. Il n'y a pas de fonction de téléchargement, alors utilisez-la en combinaison avec ʻurllib`.
Ci-dessous, l'utilisation de base de Beautiful Soup
# Importer la bibliothèque
from bs4 import BeautifulSoup
html1 = """
<html><body>
<h1> Grattage </ h1>
<p> Analyse de page Web </ p>
<p> Extraction de parties arbitraires </ p>
</body></html>
"""
# Analyse HTML
soup = BeautifulSoup(html1, 'html.parser')
# Extraire des éléments arbitraires
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
print(h1.string)
print(p1.string)
print(p2.string)
Résultat d'exécution
Grattage Extraire des pages Web Extraction de pièces arbitraires
Grattage en utilisant Beautiful Soup
et ʻurllib` ensemble
# Importer la bibliothèque
import urllib.request as req
from bs4 import BeautifulSoup
url = "https://api.aoikujira.com/zip/xml/1500042"
res = req.urlopen(url)
# Analyser les données acquises par urlopen ()
soup = BeautifulSoup(res, 'html.parser')
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)
J'ai joint le GitHub publié à partir du livre auquel j'ai fait référence. Révision supplémentaire de la technique de développement du scraping Python et de l'apprentissage automatique
Recommended Posts