J'ai essayé le web scraping en utilisant python et sélénium

Connaissances préalables

Cette fois, j'ai écrit le code pour collecter le texte du site Web en utilisant python et sélénium, je vais donc le résumer.

Qu'est-ce que le sélénium?

À l'origine, le sélénium sert à tester automatiquement les applications Web, mais vous pouvez utiliser un navigateur Web pour faire fonctionner un site Web.

Web scraping avec Python et Selenium

Pour expliquer comment nous avons décidé de gratter le Web avec Python et Selenium cette fois

  1. Le site que vous avez essayé de gratter a communiqué avec ajax pour obtenir le contenu du site.
  2. Par conséquent, la fonction urlopen de urllib.request ne peut pas être utilisée.

Pour les raisons ci-dessus, utilisez non seulement urlopen de urllib.request, qui est souvent utilisé pour le grattage Web, mais également du sélénium.

Flux de raclage Web de base de sélénium et de python

from selenium import webdriver
from bs4 import BeautifulSoup

class Crawler(object):
    
    def main(self, url):
        if url is not None:
            #Gestion des exceptions
            try:
                browser = webdriver.PhantomJS() #Créer un objet qui exploite le navigateur
                browser.get(url) #URL d'accès
            except:
                ~~~

        html_source = browser.page_source #Renvoie la source de la page du site visité
        bs_obj = BeautifulSoup(html_source) #Crée un objet Beautiful Soup avec la source de la page comme argument
        
        print(url)
        print(html_source)
        print(bs_obj)
        browser.quit()


if __name__ == "__main__":
    cw = Crawler()
    cw.main(http://www.yahoo.co.jp/)

Selenium/BeautifulSoup

Recommended Posts

J'ai essayé le web scraping en utilisant python et sélénium
Web scraping avec Selenium (Python)
J'ai essayé webScraping avec python.
[Python scraping] J'ai essayé la recherche Google Top10 en utilisant Beautifulsoup et sélénium
Pratiquer le web scraping avec Python et Selenium
J'ai essayé la détection d'objets en utilisant Python et OpenCV
J'ai essayé de gratter avec Python
J'ai essayé de gratter avec du python
Grattage avec Python, Selenium et Chromedriver
Programmation Python: j'ai essayé d'obtenir (l'exploration) des articles de presse en utilisant Selenium et BeautifulSoup4
J'ai essayé d'utiliser Thonny (Python / IDE)
J'ai essayé de [gratter] des images de mode et des phrases de texte avec Python.
J'ai essayé d'obtenir les informations du Web en utilisant "Requests" et "lxml"
J'ai essayé de gratter
J'ai essayé différentes choses avec Python: le grattage (Beautiful Soup + Selenium + PhantomJS) et l'analyse morphologique
Scraping à l'aide de Python
[Débutant] Scrapage Web Python facile à comprendre à l'aide de Google Colaboratory
J'ai essayé d'utiliser du sélénium avec du chrome sans tête
J'ai essayé d'utiliser PyEZ et JSNAPy. Partie 2: J'ai essayé d'utiliser PyEZ
J'ai essayé d'utiliser l'optimisation bayésienne de Python
J'ai essayé d'utiliser l'API UnityCloudBuild de Python
J'ai essayé de gratter la météo Yahoo (édition Python)
Scraping Web facile avec Python et Ruby
J'ai essayé d'utiliser Headless Chrome de Selenium
J'ai essayé de faire un processus d'exécution périodique avec Selenium et Python
J'ai essayé d'utiliser paramétré
J'ai essayé d'utiliser PyEZ et JSNAPy. Partie 1: Aperçu
J'ai essayé d'utiliser argparse
J'ai essayé Web Scraping pour analyser les paroles.
J'ai essayé d'utiliser la mimesis
J'ai essayé d'utiliser anytree
vprof - J'ai essayé d'utiliser le profileur pour Python
J'ai essayé d'utiliser aiomysql
J'ai essayé d'utiliser Summpy
J'ai essayé Python> autopep8
J'ai essayé d'utiliser coturn
J'ai essayé d'utiliser Pipenv
[ML-Aents] J'ai essayé l'apprentissage automatique en utilisant TensorFlow de Unity et Python (compatible v0.11β)
J'ai essayé d'utiliser matplotlib
J'ai essayé d'utiliser "Anvil".
J'ai essayé la différenciation jacobienne et partielle avec python
J'ai essayé d'utiliser Hubot
J'ai essayé d'utiliser mecab avec python2.7, ruby2.3, php7
J'ai essayé la synthèse de fonctions et le curry avec python
J'ai essayé d'utiliser ESPCN
Créer une carte Web en utilisant Python et GDAL
Un chercheur d'une société pharmaceutique a résumé le raclage Web à l'aide de Python
J'ai essayé d'utiliser openpyxl
J'ai essayé d'utiliser Ipython
J'ai essayé d'utiliser PyCaret
J'ai essayé de lire un fichier CSV en utilisant Python
J'ai essayé d'utiliser cron
J'ai essayé d'utiliser le module Datetime de Python
J'ai essayé d'utiliser ngrok
J'ai essayé d'utiliser face_recognition