[PYTHON] Supprimez les balises HTML indésirables avec Beautiful Soup

J'ai utilisé Beautiful Soup pour la première fois

J'ai décidé de gratter pour une raison quelconque dans mon travail, alors j'ai essayé à la hâte de l'utiliser.

sc.py


import urllib.request
import bs4

url = 'http://www.XXXXXX.jp'

html = urllib.request.urlopen(url)
soup = bs4.BeautifulSoup(html, 'html.parser')

title = soup.select('.lxl-inCateList ul li a dl dt')
price = soup.find_all("dd", class_="l-price")



for i in title:
    a = (i.string)
    print (a)
for i in price:
    b = (i.string)
    print (b)

C'est une source qui n'a pas l'air belle,

a = (i.string)

Ce faisant, les balises HTML inutiles pourraient être supprimées.

soup.find_all("dd", class_="l-price")

C'est vraiment pratique de pouvoir aller voir des cours. J'aurais aimé savoir plus tôt ... Avec un besoin soudain, la tâche de «rassembler ceci et cela du site dans un document» devient aussitôt plus facile.

Recommended Posts

Supprimez les balises HTML indésirables avec Beautiful Soup
Gratter avec une belle soupe
Notez que j'ai traité du HTML dans Beautiful Soup
Grattage de table avec belle soupe
Pratique de l'exploration avec Beautiful Soup
Essayez de gratter avec Python + Beautiful Soup
Racler plusieurs pages avec Beautiful Soup
Gratter avec une belle soupe en 10 minutes
Grattage de site Web avec Beautiful Soup en Python
Belle soupe
Belle note de soupe
Belles éclaboussures de soupe
Comment rechercher des données HTML à l'aide de Beautiful Soup
Supprimer / remplacer des éléments spécifiques de la source HTML [Beautiful Soup]
Ma belle soupe (Python)