[PYTHON] Löschen / Ersetzen bestimmter Elemente der HTML-Quelle [Schöne Suppe]

Entfernen oder Ersetzen von Elementen, die bestimmte Kriterien beim HTML-Scraping erfüllen

(* Zum Beispiel möchte ich alle Links, Diagramme usw. überspringen.)

Verwenden Sie die Funktionen .extract () und .replace_with () in Python BeautifulSoup.

from bs4 import BeautifulSoup

txt = """<p>I have a dog.  His name is <span class="secret">Ken</span>.</p>"""
soup = BeautifulSoup(txt)

# This keeps "unwanted" information
soup.get_text()
#: u'I have a dog.  His name is Ken.'


# remove an element by tag matching 
soup.find("span", {"class":"secret"}).extract()
soup.get_text()
#: u'I have a dog.  His name is .'


# or you can replace that with something
soup = BeautifulSoup(txt)
soup.find("span", {"class":"secret"}).replace_with("confidential")
soup.get_text()
#: u'I have a dog.  His name is confidential.'

Recommended Posts

Löschen / Ersetzen bestimmter Elemente der HTML-Quelle [Schöne Suppe]
[Python] Ein Memorandum der schönen Suppe4
Entfernen Sie unerwünschte HTML-Tags mit Beautiful Soup
Schöne Suppe
Häufig verwendete Methoden von Selen und schöner Suppe