Hier erklären wir das Web-Scraping mit Python.
BeautifulSoup
Angenommen, Sie möchten eine Webseite crawlen und kratzen, auf der die folgende HTML-Datei angezeigt wird.
<ul class="list-group">
<li class="list-group-item"><a href="">Element 1</a></li>
<li class="list-group-item"><a href="">Element 2</a></li>
<li class="list-group-item"><a href="">Element 3</a></li>
</ul>
Das Python-Skript sieht folgendermaßen aus:
import requests
from bs4 import BeautifulSoup
url =URL, um HTML zu erhalten
response = requests.get(url)
response.encoding = response.apparent_encoding
bs = BeautifulSoup(response.text, 'html.parser')
ul = bs.select('ul.list-group')
for li in ul[0].select('li.list-group-item'):
a_tags = li.select('a')
a_tag = a_tags[0]
item_name = a_tag.text.strip()
Scrapy
Angenommen, Sie möchten eine HTML-Datei crawlen und kratzen, die der oben beschriebenen Datei mit Beautiful Soup ähnelt.
<ul class="list-group">
<li class="list-group-item"><a href="">Element 1</a></li>
<li class="list-group-item"><a href="">Element 2</a></li>
<li class="list-group-item"><a href="">Element 3</a></li>
</ul>
import scrapy
class SampleSpider(scrapy.Spider):
name = 'sample'
allowd_domains = [Domain]
start_urls = [
Ziel-URL
]
def parse_list(self, response):
ul = response.css('ul.list-group')[0]
for li in ul.css('li.list-group-item'):
item_url = li.css('a::attr(href)').extract_first()
yield scrapy.Request(item_url, callback=parse_detail)
def parse_detail(self, response):
item_name = response.css('h1.item-name::text').extract_first()
return item_name
Hier erklärte ich die Methode des Web Scraping mit Beautiful Soup and Scrapy.
Was ist die Programmiersprache Python? Kann es für KI und maschinelles Lernen verwendet werden?
Recommended Posts