[Persönlicher Hinweis] Scraping von Webseiten in Python3

Vorsichtsmaßnahmen beim Schaben

Klicken Sie mit der rechten Maustaste auf den Seitenquellcode, um stattdessen die Seitenquelle anzuzeigen スクリーンショット 2017-03-10 14.30.22.png

Verwenden Sie die in den Entwicklertools angezeigte スクリーンショット 2017-03-10 14.30.39.png

Text extrahieren

<dt>Preis<span class="tax">(Steuern inklusive)</span></dt>

So extrahieren Sie den Text des "span" -Tags, der in das "dt" -Tag eingebettet ist

source = '<dt>Preis<span class="tax">(Steuern inklusive)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
soup.text

Und .text kann durch Angabe extrahiert werden

Entfernung von Leerzeichen

<dt>
Preis
    <span class="tax">(Steuern inklusive)</span>
</dt>

Wenn das Tag ein leeres Zeichen enthält, z

def remove_whitespace(str):
    return ''.join(str.split())

source = '<dt>Preis<span class="tax">(Steuern inklusive)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
remove_whitespace(soup.text)

Kann herausgenommen werden

Da das Leerzeichen in der Mitte nicht mit "strip ()" gelöscht werden kann, wird das Leerzeichen als Trennzeichen mit "split ()" verwendet. Treten Sie mit .join bei

Finden Sie in der schönen Suppe

Wenn Sie eine bestimmte Klasse finden möchten

In einem Fall

soup.find(class_='hoge')

Bei der Suche alle

soup.find_all(class_='hoge')

Wenn Sie eine bestimmte ID finden möchten

In einem Fall

soup.find(id='hoge')

Bei der Suche alle

soup.find_all(id='hoge')

Wenn Sie ein bestimmtes Tag suchen möchten

In einem Fall

soup.find('hoge')

Bei der Suche alle

soup.find_all('hoge')

Sie können auch mehrere Bedingungen gleichzeitig haben

soup.find('hoge',class_='fuga)

Recommended Posts

[Persönlicher Hinweis] Scraping von Webseiten in Python3
WEB-Scraping mit Python (für persönliche Notizen)
Web Scraping Anfänger mit Python
Web Scraping mit Python Erster Schritt
Ich habe versucht, WebScraping mit Python.
Erste Schritte mit Python Web Scraping Practice
Pferderennseite Web Scraping mit Python
Erste Schritte mit Python Web Scraping Practice
Üben des Web-Scrapings mit Python und Selen
Einfaches Web-Scraping mit Python und Ruby
WEB-Scraping mit BeautifulSoup4 (Seriennummernseite)
[Für Anfänger] Versuchen Sie Web Scraping mit Python
Scraping in Python (Vorbereitung)
Versuchen Sie es mit Python.
Scraping mit Python + PhantomJS
Schaben mit Selen [Python]
Scraping mit Python + PyQuery
Scraping von RSS mit Python
Führen Sie das WEB-Scraping regelmäßig mit AWS-Lambda + Python + Cron aus
[Python] Mit Metie schnell Webseiten-Metadaten abrufen
Web Scraping mit Python (Wettervorhersage)
Web Scraping mit Python (Aktienkurs)
Extrahieren Sie mit Python Daten von einer Webseite
Ich habe versucht, mit Python zu kratzen
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
Schaben mit Selen in Python
Schaben mit Chromedriver in Python
Festliches Scraping mit Python, Scrapy
Speichern Sie Bilder mit Web Scraping
Scraping mit Selen in Python
[Hinweis] Betreiben Sie MongoDB mit Python
Schnelles Web-Scraping mit Python (unterstützt das Laden von JavaScript)
Einfaches Web-Scraping mit Scrapy
Scraping mit Tor in Python
Web-API mit Python + Falcon
Python-Anfänger bleiben beim ersten Web-Scraping stecken
Web Scraping mit Selenium (Python)
Kratzwettervorhersage mit Python
Schaben mit Selen + Python Teil 2
[AtCoder] ABC165C Persönliche Notiz [Python]
Webanwendung mit Python + Flask ② ③
Ich habe versucht, mit Python zu kratzen
I-Town-Seite mit Selen abkratzen
Optimieren Sie die Websuche mit Python
Webanwendung mit Python + Flask ④
[Für Anfänger] Web-Scraping mit Python "Greifen Sie auf die URL auf der Seite zu, um den Inhalt abzurufen."
[Teil 2] Crawlen mit Python! Klicken Sie auf die Webseite, um sich zu bewegen!
Webcrawlen, Web-Scraping, Zeichenerfassung und Speichern von Bildern mit Python
Versuchen Sie es mit Python + Beautiful Soup
Scraping mit Selen in Python (Basic)
Scraping mit Python, Selen und Chromedriver
Erste Schritte mit Python-Webanwendungen
Scraping von Alexas Web Rank mit pyQuery
Kratzen mit Python und schöner Suppe
Überwachen Sie Python-Webanwendungen mit Prometheus
Holen Sie sich Web-Screen-Capture mit Python