[PYTHON] Beachten Sie, dass ich mich mit HTML in Beautiful Soup befasst habe

Informationen zur grundlegenden Verwendung von Beautiful Soup finden Sie unter Scraping with Python and Beautiful Soup.

Dieses Mal hatte ich die Gelegenheit, Beautiful Soup mit HTML zu bearbeiten, also die Tipps, Memos und Memoranden der damals verwendeten Verarbeitung, na ja, so etwas. Update von Zeit zu Zeit (vielleicht)

Ersetzen Sie ein bestimmtes Tag durch ein anderes Tag

for texttag in content.find_all('text'):
	texttag.name = 'p'

Ersetzte alle "" durch "

"

Fügen Sie Tags zu Elementen hinzu, die nicht von einem bestimmten Tag eingeschlossen sind

for imgtag in content.find_all('img'):
	if not imgtag.parent.name in ['figure']:
		imgtag.wrap(content.new_tag('figure'))

Suchen Sie das , das nicht in der

enthalten ist, und schließen Sie es in die
ein

Alternativ kann der gleiche Prozess durch das folgende Verfahren ausgeführt werden.

for notwrap_a in content.select("p ~ a"):
	notwrap_a.wrap(content.new_tag("p"))

Suchen Sie das "", das nicht in "

" enthalten ist, und schließen Sie es in "

" ein


### Entfernen Sie alle Elemente außer dem ersten aus der Liste
for tag in content.find_all('ul'):
	tag.find('li').unwrap()
	
for unwarp_ul in content.find_all('ul'):
	unwarp_ul.unwrap()

for delete_li in content.find_all('li'):
	delete_li.decompose()

Zuerst findet der erste Prozess "