Programmieranfänger lernen das Schaben. Vorerst können die abgekratzten Inhalte in eine lokale Datei heruntergeladen werden. Machen Sie sich also eine Notiz als Memorandum, bevor Sie sie vergessen.
#Beispiel für das Scraping von Artikeln und URLs von Websites und das Herunterladen von Ergebnissen auf den lokalen PC
#Importieren Sie die erforderlichen Module
from bs4 import BeautifulSoup
import requests
import pandas as pd
#Erstellen Sie einen Datenrahmen
columns = ["Artikelüberschrift", "URL"]
df = pd.DataFrame(columns = columns)
#Holen Sie sich den Inhalt von der Website mit Anfragen und verarbeiten Sie den Inhalt mit Beautiful Soup
res = requests.get("https:~~ URL der Website, die Sie kratzen möchten ~~")
soup = BeautifulSoup(res.content, 'html.parser') #Schöne Suppeninitialisierung
tags = soup.find_all("XXXXX", {"class": "YYYYYY"}) #X und Y variieren je nach Website
#Fügen Sie dem Datenrahmen den Artikelnamen und die URL hinzu
for tag in tags:
article = tag.a.string
url = tag.a.get("href")
se = pd.Series([article, url], columns)
df = df.append(se, columns)
#「to_Speichern Sie die CSV-Datei in demselben Ordner, in dem der Code mit "CSV" gespeichert ist.
df.to_csv("./news.csv")
print("Ende")
Recommended Posts