Eine Bibliothek, die Informationen aus HTML und XML extrahiert und analysiert. Da es keine Download-Funktion gibt, verwenden Sie diese zusammen mit "urllib".
Unten die grundlegende Verwendung von Beautiful Soup
# Bibliothek importieren
from bs4 import BeautifulSoup
html1 = """
<html><body>
<h1> Schaben </ h1>
<p> Webseitenanalyse </ p>
<p> Extraktion beliebiger Teile </ p>
</body></html>
"""
# HTML-Analyse
soup = BeautifulSoup(html1, 'html.parser')
# Beliebige Elemente extrahieren
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
print(h1.string)
print(p1.string)
print(p2.string)
Ausführungsergebnis
Schaben Webseiten extrahieren Extraktion beliebiger Teile
Schaben mit "Schöne Suppe" und "Urllib"
# Bibliothek importieren
import urllib.request as req
from bs4 import BeautifulSoup
url = "https://api.aoikujira.com/zip/xml/1500042"
res = req.urlopen(url)
# Analysieren Sie die von urlopen () erfassten Daten
soup = BeautifulSoup(res, 'html.parser')
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string
print(ken, shi, cho)
Ich habe den GitHub angehängt, der aus dem Buch veröffentlicht wurde, auf das ich mich bezog. Zusätzliche Überarbeitung Python Scraping & Entwicklungstechnik für maschinelles Lernen
Recommended Posts