Beim letzten Mal habe ich Selen verwendet, um alle Elemente der Listenseite abzurufen und zu seiten. Diesmal
Ich tat.
test.py
import os, re
import time
from selenium import webdriver
DRIVER_PATH = os.path.join(os.path.dirname(__file__), 'chromedriver')
browser = webdriver.Chrome(DRIVER_PATH)
url = 'https://wwwXXXX'
browser.get(url)
time.sleep(5)
for i in range(3):
try:
name_list = []
path_front = '//*[@id="main"]/ul/li['
count = 1
path_end = ']/div[1]/a'
for _ in range(5):
path = path_front + str(count) + path_end
for l in browser.find_elements_by_xpath(path):
l.click()
for t in browser.find_elements_by_xpath('//*[@id="main"]/div[1]/h1'):
name_list.append(t.text)
browser.back()
count += 1
for name_title in zip(name_list):
print (name_title, "\n+++++++++++++++++++++++++++++++++++++++++++++++++++")
link_elem = browser.find_element_by_class_name('nextpostslink')
link_elem.click()
time.sleep(5)
except:
print ('not found!')
browser.close()
Die Verarbeitung ist überhaupt nicht schön, aber am Ende hatte ich das Gefühl, die Linknummer von li hinzuzufügen. Das heißt, ich habe mein Ziel fast erreicht, also bin ich fertig.