[PYTHON] Entfernen Sie unerwünschte HTML-Tags mit Beautiful Soup

Ich habe zum ersten Mal Beautiful Soup verwendet

Ich beschloss, aus irgendeinem Grund in meiner Arbeit zu kratzen, also versuchte ich es hastig.

sc.py


import urllib.request
import bs4

url = 'http://www.XXXXXX.jp'

html = urllib.request.urlopen(url)
soup = bs4.BeautifulSoup(html, 'html.parser')

title = soup.select('.lxl-inCateList ul li a dl dt')
price = soup.find_all("dd", class_="l-price")



for i in title:
    a = (i.string)
    print (a)
for i in price:
    b = (i.string)
    print (b)

Es ist eine Quelle, die nicht schön aussieht,

a = (i.string)

Auf diese Weise könnten unnötige HTML-Tags gelöscht werden.

soup.find_all("dd", class_="l-price")

Es ist sehr praktisch, Klassen besuchen zu können. Ich wünschte ich wüsste es früher ... Mit einem plötzlichen Bedarf wird die Aufgabe, "dies und das von der Site in einem Dokument zu sammeln", sofort einfacher.

Recommended Posts

Entfernen Sie unerwünschte HTML-Tags mit Beautiful Soup
Kratzen mit schöner Suppe
Beachten Sie, dass ich mich mit HTML in Beautiful Soup befasst habe
Tischkratzen mit schöner Suppe
Krabbeltraining mit schöner Suppe
Versuchen Sie es mit Python + Beautiful Soup
Mehrere Seiten mit Beautiful Soup verschrotten
Kratzen mit schöner Suppe in 10 Minuten
Website-Scraping mit Beautiful Soup in Python
Schöne Suppe
Schöne Suppe Memo
Schöne Suppe verschüttet
So suchen Sie HTML-Daten mit Beautiful Soup
Löschen / Ersetzen bestimmter Elemente der HTML-Quelle [Schöne Suppe]
Meine schöne Suppe (Python)