Grundlagen der Python-Scraping-Grundlagen

Verwenden des Python-Anforderungsmoduls und von Beautiful Soup Die Grundlagen des Scraping Grundlagen

Holen Sie sich Inhalte (hauptsächlich HTML) aus dem Web

--Code zum Abrufen und Anzeigen des gesamten HTML-Codes der URL:

Holen Sie sich HTML


import requests

url = "https://hogehoge12345.html"

response = requests.get(url)
response.encoding = response.apparent_encoding

print(response.text)

1 Sekunde Intervall


import time

time.sleep(1)

Speichern Sie den abgerufenen Webinhalt in einer Datei


response = requests.get(url)
response.encoding = response.apparent_encoding

exam_html = response.text

with open('exam.html', mode='w', encoding='utf-8') as fp:
    fp.write(exam_html)

HTML-Analyse

python


import requests
from bs4 import BeautifulSoup

url = "https://hogehoge12345.html"
response = requests.get(url)
response.encoding = response.apparent_encoding

#HTML analysieren
bs = BeautifulSoup(response.text, 'html.parser')

#Extrahieren Sie das vom ul-Tag eingeschlossene Teil
ul_tag = bs.find('ul')

#Extrahieren Sie das a-Tag im ul-Tag
for a_tag  in ul_tag.find_all('a'):

    #Holen Sie sich den Text des a-Tags
    text = a_tag.text        # => "Klicken Sie, um zum Link zu springen"

    #Ruft das href-Attribut des a-Tags ab
    link_url = a_tag['href'] # => "https://hogehoge12345.html/next"

    print('{}: {}'.format(text, link_url))