Umgebung Mac, Python3
Installieren Sie Beautiful Soup und lxml
$ pip install beautifulsoup4
$ pip install lxml
Ich habe unterwegs einen Fehler erhalten, aber die Installation war erfolgreich. Bisher gibt es keine Probleme.
from bs4 import BeautifulSoup
import urllib.request
#Beim Abrufen von HTML aus dem Web
url = '××××××××××××'
req = urllib.request.Request(url)
response = urllib.request.urlopen(req)
html = response.read()
soup = BeautifulSoup(html, "lxml")
#Beim direkten Öffnen von lokalem HTML
soup = BeautifulSoup(open("index.html"), "lxml")
Rufen Sie das Element ab, indem Sie das Tag angeben, das die gewünschten Informationen enthält.
-Geben Sie die Klasse an
soup.find(class_='class_name')
#Wenn nach dem Unterricht kein Unterstrich vorhanden ist, tritt ein Fehler auf.
-Geben Sie die ID an
soup.find(id="id_name")
#Die ID bleibt gleich.
-Geben Sie das Tag zusammen an
soup.find('li', class_='class_name')
soup.find('div', id="id_name")
find () erhält nur den ersten Treffer. Wenn Sie mehr als eine erhalten möchten, verwenden Sie find_all ().
images = soup.find_all('img')
for img in images:
~Individuelle Bearbeitung~
soup.select("p > a")
soup.select('a[href="http://example.com/"]')
Es ist eine Probe nach dem Laden von HTML in die Suppe.
sample.html
<html>
<title>test title</title>
</html>
>>> soup.title
<title>test title</title>
>>> soup.title.string
'test title'
Sie können es erhalten, indem Sie am Ende .string hinzufügen.
sample.html
<html>
<div id="hoge">
<img class="fuga" src="http://××.com/sample.jpg "/>
</div>
</html>
Holen Sie sich zuerst das div-Tag mit id = "hoge"
>>> div = soup.find('div' id="hoge")
<div id="hoge">
<img class="fuga" src="http://××.com/sample.jpg "/>
</div>
Als nächstes erhalten Sie das img-Tag von class = "fuga" von der div
>>> img = div.find('img', class_='fuga')
<img class="fuga" src="http://××.com/sample.jpg "/>
>>> img['src']
"http://××.com/sample.jpg "
Sie brauchen eigentlich kein Div mit diesem Muster. Ich wollte jedoch ein Beispiel erstellen, das sich verengt, also habe ich ein div hinzugefügt.
Referenz http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup
Recommended Posts