[PYTHON] Nogizaka46 Holen Sie sich Blog-Bilder durch Schaben

Einführung

Nogisaka 46 Ich habe das Bild des Blogs durch Scraping mit Python gespeichert. Ich habe die erste Seite von Midsummer Akimoto abgekratzt.

Code

scraping.py


import requests
import urllib.request
import os
from bs4 import BeautifulSoup


def scraping():
    #Mitglieds-URL
    member_name = "manatsu.akimoto"
    url = "http://blog.nogizaka46.com/" + member_name + "/"

    #Ordner erstellen
    if not os.path.isdir(member_name):  # ”member_Wenn es keinen "Namen" -Ordner gibt
        print("Ordner erstellen")
        os.mkdir(member_name)

    #Zum Zählen der Anzahl der gespeicherten Blätter
    cnt = 0

    #BeautifulSoup-Objektgenerierung
    headers = {"User-Agent": "Mozilla/5.0"}
    soup = BeautifulSoup(requests.get(
        url, headers=headers).content, 'html.parser')

    #Suchen Sie den HTML-Code, in dem sich das Bild befindet
    for entry in soup.find_all("div", class_="entrybody"):  #Holen Sie sich alle Eintragskörper
        for img in entry.find_all("img"):  #Holen Sie sich alle img
            cnt += 1
            urllib.request.urlretrieve(
                img.attrs["src"], "./" + member_name + "/" + member_name + "-" + str(cnt) + ".jpeg ")
    print("das Bild" + str(cnt) + "Ich habe ein Blatt gespeichert.")


if __name__ == '__main__':
    scraping()


Mitglieds-URL

スクリーンショット (1).png スクリーンショット (2).png Da der Name des Mitglieds als URL verwendet wird, gebe ich den Namen des Mitglieds, das ich erhalten möchte, in Mitgliedsname ein.

member_name = "manatsu.akimoto"
url = "http://blog.nogizaka46.com/" + member_name + "/"

BeautifulSoup-Objektgenerierung

Auf der folgenden Website finden Sie eine leicht verständliche Erklärung. Referenzseite: https://python.civic-apps.com/beautifulsoup4-selector/


Suchen Sie den HTML-Code, in dem sich das Bild befindet

Mit Blick auf das HTML, aus dem der Blog besteht, スクリーンショット (7).png Das div-Tag des Klassennamens "entrybody" enthält einen Text. スクリーンショット (8).png Das img-Tag enthält ein Bild. Speichern Sie es daher in einem Ordner, sobald Sie es finden.

for entry in soup.find_all("div", class_="entrybody"):#Holen Sie sich alle Eintragskörper
    for img in entry.find_all("img"):#Holen Sie sich alle img
        cnt += 1
        urllib.request.urlretrieve(img.attrs["src"], "./" + member_name + "/" + member_name + "-" + str(cnt) + ".jpeg ")

Ausführungsergebnis

Seite zum Zeitpunkt der Ausführung

screencapture-blog-nogizaka46-manatsu-akimoto-2020-02-19-12_42_35.jpg

Ordner erstellt

スクリーンショット (12).png

Befehlszeilenanzeige

Ordner erstellen
Ich habe 22 Bilder gespeichert.

Recommended Posts

Nogizaka46 Holen Sie sich Blog-Bilder durch Schaben
Holen Sie sich Splunk Download-Link durch Scraping
100 Fortnite-Bilder kratzen
Holen Sie sich iPad Wartung durch Scraping und benachrichtigen Sie Slack
Nogizaka46 Ein Programm, das Blog-Bilder automatisch speichert
Bildkratzen ②-Holen Sie sich Bilder von Bing, Yahoo, Flickr
Holen Sie sich Qiitas "Gefällt mir" -Liste durch Schaben
Scraping von Hinatazakas Blog-Bild
Sofort von Google-Bildern abkratzen!
Speichern Sie Bilder mit Web Scraping
Bildersammlung mit Web Scraping
Einzeiliges Web-Scraping mit tse
Sammeln Sie nur Gesichtsbilder einer bestimmten Person mit Web Scraping