Klicken Sie mit der rechten Maustaste auf den Seitenquellcode, um stattdessen die Seitenquelle anzuzeigen
Verwenden Sie die in den Entwicklertools angezeigte
<dt>Preis<span class="tax">(Steuern inklusive)</span></dt>
So extrahieren Sie den Text des "span" -Tags, der in das "dt" -Tag eingebettet ist
source = '<dt>Preis<span class="tax">(Steuern inklusive)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
soup.text
Und .text
kann durch Angabe extrahiert werden
<dt>
Preis
<span class="tax">(Steuern inklusive)</span>
</dt>
Wenn das Tag ein leeres Zeichen enthält, z
def remove_whitespace(str):
return ''.join(str.split())
source = '<dt>Preis<span class="tax">(Steuern inklusive)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
remove_whitespace(soup.text)
Kann herausgenommen werden
Da das Leerzeichen in der Mitte nicht mit "strip ()" gelöscht werden kann, wird das Leerzeichen als Trennzeichen mit "split ()" verwendet.
Treten Sie mit .join
bei
soup.find(class_='hoge')
soup.find_all(class_='hoge')
soup.find(id='hoge')
soup.find_all(id='hoge')
soup.find('hoge')
soup.find_all('hoge')
Sie können auch mehrere Bedingungen gleichzeitig haben
soup.find('hoge',class_='fuga)
Recommended Posts