Vorausgesetztes Wissen

python3

Dieses Mal habe ich den Code geschrieben, um mit Python und Selen Text von der Website zu sammeln, also werde ich ihn zusammenfassen.

Was ist Selen?

Ursprünglich dient Selen zum automatischen Testen von Webanwendungen. Sie können jedoch einen Webbrowser zum Betreiben einer Website verwenden.

Selenium - Web Browser

Web Scraping mit Python und Selen

Um zu erklären, wie wir uns dieses Mal für Web Scrape mit Python und Selen entschieden haben

Die Site, die Sie zu kratzen versucht haben, kommunizierte mit Ajax, um den Inhalt der Site zu erhalten.
Daher kann die urlopen-Funktion von urllib.request nicht verwendet werden.

Verwenden Sie aus den oben genannten Gründen nicht nur urlopen von urllib.request, das häufig für das Web-Scraping verwendet wird, sondern auch Selen.

Grundlegender Web-Scraping-Fluss von Selen und Python

from selenium import webdriver
from bs4 import BeautifulSoup

class Crawler(object):
    
    def main(self, url):
        if url is not None:
            #Ausnahmebehandlung
            try:
                browser = webdriver.PhantomJS() #Erstellen Sie ein Objekt, das den Browser bedient
                browser.get(url) #Zugriffs-URL
            except:
                ~~~

        html_source = browser.page_source #Gibt die Seitenquelle der besuchten Site zurück
        bs_obj = BeautifulSoup(html_source) #Erstellt ein Beautiful Soup-Objekt mit der Seitenquelle als Argument
        
        print(url)
        print(html_source)
        print(bs_obj)
        browser.quit()


if __name__ == "__main__":
    cw = Crawler()
    cw.main(http://www.yahoo.co.jp/)

Selenium/BeautifulSoup

Recommended Posts

Ich habe versucht, Web-Scraping mit Python und Selen

Web Scraping mit Selenium (Python)

Ich habe versucht, WebScraping mit Python.

[Python Scraping] Ich habe versucht, Google Search Top10 mit Beautifulsoup & Selenium

Üben des Web-Scrapings mit Python und Selen

Ich habe versucht, Objekte mit Python und OpenCV zu erkennen

Ich habe versucht, mit Python zu kratzen

Scraping mit Python, Selen und Chromedriver

Python-Programmierung: Ich habe versucht, Nachrichtenartikel mit Selenium und BeautifulSoup4 abzurufen (zu crawlen)

Ich habe versucht, Thonny (Python / IDE) zu verwenden.