[PYTHON] WEB-Scraping mit BeautifulSoup4 (Seriennummernseite)

WEB-Scraping mit Beutiful Soup 4

Ich habe einen Code geschrieben, um eine URL-Liste zum gleichzeitigen Herunterladen auf einer Seite mit Seriennummern gängiger URLs zu erstellen. Machen Sie sich also eine Notiz

Installation

$ apt-get install lxml-python
$ pip install beautifulsoup4

Quelle

scraper.py


# -*- coding: utf-8 -*-

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

try:
    # Python 3
    from urllib import request
except ImportError:
    # Python 2
    import urllib2 as request

from bs4 import BeautifulSoup
import codecs
import time

def getSoup(url):
    response = request.urlopen(url)
    body = response.read()
    # Parse HTML
    return BeautifulSoup(body, 'lxml')

wait_sec = 3
domain = 'http://hoge.com'
result_file = 'list.txt'
i = 1
while(True):
    url = '{domain}/{index:0>2}/'.format(domain = domain, index = i)
    try:
        soup = getSoup(url)
    except IOError:
        break

    div = soup.find('div', attrs = {'id': 'div_id'})
    all_a = div.find_all('a', attrs = {'class': 'a_class'})
    src_list = []
    for a in all_a:
        src_list.append(a.img['src'])
    with codecs.open(result_file, 'a', 'utf-8') as f:
        f.write('\n'.join(src_list))
    print(i)
    i += 1

    time.sleep(wait_sec)

Referenzseite

[Python: Scraping von Websites mit BeautifulSoup4](http://momijiame.tumblr.com/post/114227737756/python-beautifulsoup4-%E3%82%92%E4%BD%BF%E3%81%A3 % E3% 81% A6-Web-% E3% 82% B5% E3% 82% A4% E3% 83% 88% E3% 82% 92% E3% 82% B9% E3% 82% AF% E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0% E3% 81% 99% E3% 82% 8B)

Schaben mit Python und schöner Suppe

Recommended Posts

WEB-Scraping mit BeautifulSoup4 (Seriennummernseite)
[Persönlicher Hinweis] Scraping von Webseiten in Python3
Web Scraping mit Python + JupyterLab
Speichern Sie Bilder mit Web Scraping
Einfaches Web-Scraping mit Scrapy
Web Scraping Anfänger mit Python
I-Town-Seite mit Selen abkratzen
Scraping von Alexas Web Rank mit pyQuery
Web Scraping mit Python Erster Schritt
Ich habe versucht, WebScraping mit Python.
Web Scraping
Erste Schritte mit Python Web Scraping Practice
Pferderennseite Web Scraping mit Python
Überwachen Sie Webseitenaktualisierungen mit LINE BOT
Erste Schritte mit Python Web Scraping Practice
Importieren Sie Videos mit Seriennummer zusammen mit Aviutl
Üben des Web-Scrapings mit Python und Selen
Einfaches Web-Scraping mit Python und Ruby
[Für Anfänger] Versuchen Sie Web Scraping mit Python
Schaben mit Selen
Führen Sie das WEB-Scraping regelmäßig mit AWS-Lambda + Python + Cron aus
Schaben mit Selen ~ 2 ~
Scraping mit Python
Scraping mit Python
Web Scraping (Prototyp)
Löschen und generieren Sie Seriennummerndateien mit einem Shell-Skript
Schaben mit Selen
[Python] Mit Metie schnell Webseiten-Metadaten abrufen
Web Scraping mit Python (Wettervorhersage)
Web Scraping mit Python (Aktienkurs)
Extrahieren Sie mit Python Daten von einer Webseite
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
Anzeigen von Seriennummernspalten und -variablen mit der Flaschenvorlage
Schnelles Web-Scraping mit Python (unterstützt das Laden von JavaScript)
Python-Anfänger bleiben beim ersten Web-Scraping stecken
Serielle Kommunikation mit Python
Erfolgreiches Schaben mit Selen
Scraping in Python (Vorbereitung)
Versuchen Sie es mit Python.
Webseitenübersicht (Vorverarbeitung)
Serielle Kommunikation mit Python
Scraping mit Python + PhantomJS
Erste Schritte mit Web Scraping
Flask-Python-Realisierung
Schaben mit Selen [Python]
Scraping mit Python + PyQuery
Kratzen mit schöner Suppe
Scraping von RSS mit Python
Erstellen Sie mit matplotlib eine GIF-Animation aus einer Seriennummerndatei
[Teil 2] Crawlen mit Python! Klicken Sie auf die Webseite, um sich zu bewegen!
[Python] Mit OpenCV können Sie problemlos Bilddateien mit Seriennummern lesen
Webseite mit FastAPI + uvicorn + Nginx anzeigen (SSL / HTTPS-Konvertierung)