[PYTHON] Notez que j'ai traité du HTML dans Beautiful Soup

Pour l'utilisation de base de Beautiful Soup, veuillez consulter Scraping with Python and Beautiful Soup.

Cette fois, j'ai eu l'occasion de gérer Beautiful Soup avec HTML, donc les astuces, mémos et mémorandums du traitement utilisés à l'époque, eh bien, ce genre de chose. Mettre à jour de temps en temps (peut-être)

Remplacer une balise spécifique par une autre balise

for texttag in content.find_all('text'):
	texttag.name = 'p'

Remplacement de tout «» par «

»

Ajouter des balises aux éléments qui ne sont pas encadrés par une balise spécifique

for imgtag in content.find_all('img'):
	if not imgtag.parent.name in ['figure']:
		imgtag.wrap(content.new_tag('figure'))

Trouvez le <img> qui n'est pas inclus dans le <figure> et placez-le dans le <figure>

Alternativement, le même processus peut être effectué par la méthode suivante.

for notwrap_a in content.select("p ~ a"):
	notwrap_a.wrap(content.new_tag("p"))

Trouvez le <a> qui n'est pas inclus dans <p> et placez-le dans <p>


### Supprimer tout sauf le premier élément de la liste
for tag in content.find_all('ul'):
	tag.find('li').unwrap()
	
for unwarp_ul in content.find_all('ul'):
	unwarp_ul.unwrap()

for delete_li in content.find_all('li'):
	delete_li.decompose()

Tout d'abord, le premier processus trouve <ul> et supprime <li> du premier élément de la liste avec find ('li'). Unwrap. Ensuite, j'ai supprimé le «