Jedes Mal, wenn Sie kratzen
test.py
from bs4 import BeautifulSoup
Da es schwierig ist, so zu schreiben, werde ich eine Vorlage erstellen, die dies vorerst sicher verwendet.
test.py
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium
!pip install requests-html
Zunächst bibliotheksbezogen. Normalerweise benutze ich clb, also werde ich dies vorerst einfügen.
test.py
import pandas as pd
import datetime
from tqdm.notebook import tqdm
import requests
from bs4 import BeautifulSoup
import time
import re
from urllib.request import urlopen
import urllib.request, urllib.error
from requests_html import HTMLSession
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
#Bis zum Erhalten von HTML
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=options)
driver.implicitly_wait(10)
url="https://www.XXX.com"
driver.get(url)
html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, "html.parser")
Ja, das Kopieren und Einfügen ist bisher aufgrund des Hirntodes in Ordnung. später
test.py
soup
Damit erreichen Sie in wenigen Sekunden den Punkt, an dem HTML vorerst ausgegeben wird.
Genau genommen gibt es einige Bibliotheken, die ich nicht benutze, wie z. B. tqdm, aber ich packe auch den gesamten Code, der die Bibliotheken importiert, die ich im Set verwende, fast jedes Mal, wenn ich persönlich kratzt.
Ich selbst kopiere und benutze es die ganze Zeit.