Connaissances préalables

python3

Cette fois, j'ai écrit le code pour collecter le texte du site Web en utilisant python et sélénium, je vais donc le résumer.

Qu'est-ce que le sélénium?

À l'origine, le sélénium sert à tester automatiquement les applications Web, mais vous pouvez utiliser un navigateur Web pour faire fonctionner un site Web.

Selenium - Web Browser

Web scraping avec Python et Selenium

Pour expliquer comment nous avons décidé de gratter le Web avec Python et Selenium cette fois

Le site que vous avez essayé de gratter a communiqué avec ajax pour obtenir le contenu du site.
Par conséquent, la fonction urlopen de urllib.request ne peut pas être utilisée.

Pour les raisons ci-dessus, utilisez non seulement urlopen de urllib.request, qui est souvent utilisé pour le grattage Web, mais également du sélénium.

Flux de raclage Web de base de sélénium et de python

from selenium import webdriver
from bs4 import BeautifulSoup

class Crawler(object):
    
    def main(self, url):
        if url is not None:
            #Gestion des exceptions
            try:
                browser = webdriver.PhantomJS() #Créer un objet qui exploite le navigateur
                browser.get(url) #URL d'accès
            except:
                ~~~

        html_source = browser.page_source #Renvoie la source de la page du site visité
        bs_obj = BeautifulSoup(html_source) #Crée un objet Beautiful Soup avec la source de la page comme argument
        
        print(url)
        print(html_source)
        print(bs_obj)
        browser.quit()


if __name__ == "__main__":
    cw = Crawler()
    cw.main(http://www.yahoo.co.jp/)

Selenium/BeautifulSoup

Recommended Posts

J'ai essayé le web scraping en utilisant python et sélénium

Web scraping avec Selenium (Python)

J'ai essayé webScraping avec python.

[Python scraping] J'ai essayé la recherche Google Top10 en utilisant Beautifulsoup et sélénium

Pratiquer le web scraping avec Python et Selenium

J'ai essayé la détection d'objets en utilisant Python et OpenCV

J'ai essayé de gratter avec Python

J'ai essayé de gratter avec du python

Grattage avec Python, Selenium et Chromedriver

Programmation Python: j'ai essayé d'obtenir (l'exploration) des articles de presse en utilisant Selenium et BeautifulSoup4