Dieses Mal habe ich den Code geschrieben, um mit Python und Selen Text von der Website zu sammeln, also werde ich ihn zusammenfassen.
Ursprünglich dient Selen zum automatischen Testen von Webanwendungen. Sie können jedoch einen Webbrowser zum Betreiben einer Website verwenden.
Um zu erklären, wie wir uns dieses Mal für Web Scrape mit Python und Selen entschieden haben
Verwenden Sie aus den oben genannten Gründen nicht nur urlopen von urllib.request, das häufig für das Web-Scraping verwendet wird, sondern auch Selen.
Grundlegender Web-Scraping-Fluss von Selen und Python
from selenium import webdriver
from bs4 import BeautifulSoup
class Crawler(object):
def main(self, url):
if url is not None:
#Ausnahmebehandlung
try:
browser = webdriver.PhantomJS() #Erstellen Sie ein Objekt, das den Browser bedient
browser.get(url) #Zugriffs-URL
except:
~~~
html_source = browser.page_source #Gibt die Seitenquelle der besuchten Site zurück
bs_obj = BeautifulSoup(html_source) #Erstellt ein Beautiful Soup-Objekt mit der Seitenquelle als Argument
print(url)
print(html_source)
print(bs_obj)
browser.quit()
if __name__ == "__main__":
cw = Crawler()
cw.main(http://www.yahoo.co.jp/)
Selenium/BeautifulSoup
Recommended Posts