Ich habe versucht, Web-Scraping mit Python und Selen

Vorausgesetztes Wissen

Dieses Mal habe ich den Code geschrieben, um mit Python und Selen Text von der Website zu sammeln, also werde ich ihn zusammenfassen.

Was ist Selen?

Ursprünglich dient Selen zum automatischen Testen von Webanwendungen. Sie können jedoch einen Webbrowser zum Betreiben einer Website verwenden.

Web Scraping mit Python und Selen

Um zu erklären, wie wir uns dieses Mal für Web Scrape mit Python und Selen entschieden haben

  1. Die Site, die Sie zu kratzen versucht haben, kommunizierte mit Ajax, um den Inhalt der Site zu erhalten.
  2. Daher kann die urlopen-Funktion von urllib.request nicht verwendet werden.

Verwenden Sie aus den oben genannten Gründen nicht nur urlopen von urllib.request, das häufig für das Web-Scraping verwendet wird, sondern auch Selen.

Grundlegender Web-Scraping-Fluss von Selen und Python

from selenium import webdriver
from bs4 import BeautifulSoup

class Crawler(object):
    
    def main(self, url):
        if url is not None:
            #Ausnahmebehandlung
            try:
                browser = webdriver.PhantomJS() #Erstellen Sie ein Objekt, das den Browser bedient
                browser.get(url) #Zugriffs-URL
            except:
                ~~~

        html_source = browser.page_source #Gibt die Seitenquelle der besuchten Site zurück
        bs_obj = BeautifulSoup(html_source) #Erstellt ein Beautiful Soup-Objekt mit der Seitenquelle als Argument
        
        print(url)
        print(html_source)
        print(bs_obj)
        browser.quit()


if __name__ == "__main__":
    cw = Crawler()
    cw.main(http://www.yahoo.co.jp/)

Selenium/BeautifulSoup

Recommended Posts

Ich habe versucht, Web-Scraping mit Python und Selen
Web Scraping mit Selenium (Python)
Ich habe versucht, WebScraping mit Python.
[Python Scraping] Ich habe versucht, Google Search Top10 mit Beautifulsoup & Selenium
Üben des Web-Scrapings mit Python und Selen
Ich habe versucht, Objekte mit Python und OpenCV zu erkennen
Ich habe versucht, mit Python zu kratzen
Ich habe versucht, mit Python zu kratzen
Scraping mit Python, Selen und Chromedriver
Python-Programmierung: Ich habe versucht, Nachrichtenartikel mit Selenium und BeautifulSoup4 abzurufen (zu crawlen)
Ich habe versucht, Thonny (Python / IDE) zu verwenden.
Ich habe versucht, mit Python Modebilder und Textsätze zu [kratzen].
Ich habe versucht, die Informationen des Webs mit "Requests" und "lxml" abzurufen.
Ich habe versucht zu kratzen
Ich habe mit Python verschiedene Dinge ausprobiert: Schaben (Beautiful Soup + Selenium + PhantomJS) und morphologische Analyse
Scraping mit Python
[Anfänger] Leicht verständliches Python-Web-Scraping mit Google Colaboratory
Ich habe versucht, Selen mit Headless-Chrom zu verwenden
Ich habe versucht, PyEZ und JSNAPy zu verwenden. Teil 2: Ich habe versucht, PyEZ zu verwenden
Ich habe versucht, die Bayes'sche Optimierung von Python zu verwenden
Ich habe versucht, die UnityCloudBuild-API von Python zu verwenden
Ich habe versucht, Yahoo Wetter zu kratzen (Python Edition)
Einfaches Web-Scraping mit Python und Ruby
Ich habe versucht, Headless Chrome von Selenium zu verwenden
Ich habe versucht, mit Selenium und Python einen regelmäßigen Ausführungsprozess durchzuführen
Ich habe versucht, parametrisiert zu verwenden
Ich habe versucht, PyEZ und JSNAPy zu verwenden. Teil 1: Übersicht
Ich habe versucht, Argparse zu verwenden
Ich habe Web Scraping versucht, um die Texte zu analysieren.
Ich habe versucht, Mimesis zu verwenden
Ich habe versucht, anytree zu verwenden
vprof - Ich habe versucht, den Profiler für Python zu verwenden
Ich habe versucht, aiomysql zu verwenden
Ich habe versucht, Summpy zu verwenden
Ich habe Python> autopep8 ausprobiert
Ich habe versucht, Coturn zu verwenden
Ich habe versucht, Pipenv zu verwenden
[ML-Aents] Ich habe versucht, maschinelles Lernen mit Unity und TensorFlow of Python (v0.11β-kompatibel) zu lernen.
Ich habe versucht, Matplotlib zu verwenden
Ich habe versucht, "Anvil" zu verwenden.
Ich habe Jacobian und teilweise Differenzierung mit Python versucht
Ich habe versucht, Hubot zu verwenden
Ich habe versucht, Mecab mit Python2.7, Ruby2.3, PHP7 zu verwenden
Ich habe Funktionssynthese und Curry mit Python versucht
Ich habe versucht, ESPCN zu verwenden
Erstellen Sie eine Webmap mit Python und GDAL
Ein Forscher eines Pharmaunternehmens fasste das Web-Scraping mit Python zusammen
Ich habe versucht, openpyxl zu verwenden
Ich habe versucht, Ipython zu verwenden
Ich habe versucht, PyCaret zu verwenden
Ich habe versucht, eine CSV-Datei mit Python zu lesen
Ich habe versucht, Cron zu verwenden
Ich habe versucht, das Datetime-Modul von Python zu verwenden
Ich habe versucht, ngrok zu verwenden
Ich habe versucht, face_recognition zu verwenden