Cette fois, j'ai écrit le code pour collecter le texte du site Web en utilisant python et sélénium, je vais donc le résumer.
À l'origine, le sélénium sert à tester automatiquement les applications Web, mais vous pouvez utiliser un navigateur Web pour faire fonctionner un site Web.
Pour expliquer comment nous avons décidé de gratter le Web avec Python et Selenium cette fois
Pour les raisons ci-dessus, utilisez non seulement urlopen de urllib.request, qui est souvent utilisé pour le grattage Web, mais également du sélénium.
Flux de raclage Web de base de sélénium et de python
from selenium import webdriver
from bs4 import BeautifulSoup
class Crawler(object):
def main(self, url):
if url is not None:
#Gestion des exceptions
try:
browser = webdriver.PhantomJS() #Créer un objet qui exploite le navigateur
browser.get(url) #URL d'accès
except:
~~~
html_source = browser.page_source #Renvoie la source de la page du site visité
bs_obj = BeautifulSoup(html_source) #Crée un objet Beautiful Soup avec la source de la page comme argument
print(url)
print(html_source)
print(bs_obj)
browser.quit()
if __name__ == "__main__":
cw = Crawler()
cw.main(http://www.yahoo.co.jp/)
Selenium/BeautifulSoup
Recommended Posts