Beautiful Soup
Eine Scraping-Bibliothek mit einer einfachen API, die leicht zu merken ist.
from urllib.parse import urljoin
from bs4 import BeautifulSoup
#HTML-Datei lesen
with open('HTML-Datei') as f:
soup = BeautifulSoup(f, 'html.parser')
#Rufen Sie die Liste der Elemente ab, die Sie mit select erhalten möchten
for a in soup.select(Element)
#Ziehen Sie das gewünschte Element heraus
pyquery
pyquery ist eine Bibliothek, die auf die gleiche Weise wie jQuery aus HTML entfernt werden kann. Es verwendet lxml intern und kann mit hoher Geschwindigkeit verarbeitet werden.
from pyquery import PyQuery as pq
#Lesen Sie die HTML-Datei und holen Sie sich das PyQuery-Objekt
d = pq(filename='HTML-Datei')
#Holen Sie sich die Liste der Elemente, die Sie erhalten möchten
for a in d(Element):
#Ziehen Sie das gewünschte Element heraus
Recommended Posts