[Python3] Verstehe die Grundlagen von Beautiful Soup

Einführung

Ich fing an, Python zu lernen. Ich möchte mein Verständnis von Web Scraping vertiefen, also werde ich es auf meine eigene Weise zusammenfassen.

Wie das Web funktioniert

Ich werde es in diesem Artikel weglassen, aber wenn Sie ein verteiltes System entwickeln, müssen Sie es bis zu einem gewissen Grad verstehen. Persönlich empfehle ich dieses Buch zum Lernen. [Technologien, die Web-HTTP, URI, HTML und REST unterstützen (WEB + DB PRESS plus)](https://www.amazon.co.jp/Web%E3%82%92%E6%94%AF%E3 % 81% 88% E3% 82% 8B% E6% 8A% 80% E8% A1% 93-HTTP% E3% 80% 81URI% E3% 80% 81HTML% E3% 80% 81% E3% 81% 9D% E3 % 81% 97% E3% 81% A6REST-WEB-PRESS-plus / dp / 477142042 / ref = pd_lpo_14_t_2 / 357-3513078-6123409? = 4b55d259-ebf0-4306-905a-7762d1b93740 & pf_rd_r = 9KK4FFTSP6VV300G2BH3 & psc = 1 & refRID = 9KK4FFTSP6VV300G2BH3)

Was ist schöne Suppe?

Dies ist das Hauptthema. In Büchern usw. wird es als Bibliothek beschrieben, die HTML analysiert. Überprüfen Sie auch die offizielle Website. Die Merkmale sind die folgenden drei Punkte.

Bietet Methoden zum Navigieren, Suchen und Ändern der Baumstruktur.
Es wird automatisch codiert (es sei denn, BeautifulSoup kann die Codierung des Dokuments nicht identifizieren).
Das empfangene Dokument ist Unicode
Das zu sendende Dokument ist UTF-8
Sie können den zu verwendenden Parser auswählen.
html.parser: Standardbibliothek. Die Verarbeitungsgeschwindigkeit ist weder schnell noch langsam.
lxml: Bibliothek eines Drittanbieters. Gekennzeichnet durch die hohe Verarbeitungsgeschwindigkeit.
html5lib: Bibliothek eines Drittanbieters. Hohe Leistung wie die Unterstützung der HTML5-Grammatik und die Interpretation derselben Methode wie ein Webbrowser. Die Verarbeitungsgeschwindigkeit ist anderen unterlegen.

Installieren Sie schöne Suppe

Installieren Sie die BeautifulSoup-Bibliothek.

Da ich MacOS verwende, verwende ich den Befehl "pip3".
Die neueste Version von BeautifulSoup ist 4.9.1 (Stand 23. Mai 2020).

Führen Sie den folgenden Befehl in der interaktiven Shell aus.

> pip3 install BeautifulSoup4

Wenn Sie es importieren können, ist die Installation erfolgreich. bs4 ist eine Bibliothek.

>>> from bs4 import BeautifulSoup4

Versuchen Sie, mit BeautifulSoup Informationen von der Website zu extrahieren

Dieses Mal werden wir den Titel und die URL der Nachrichtenliste von YAHOO! JAPAN extrahieren.

Implementieren

--Verwenden Sie Anfragen, um Site-Informationen zu erhalten. --Verwenden Sie BeautifulSoup, um die Elemente zu analysieren. --Verwenden Sie re, um das Element mit einem regulären Ausdruck abzurufen.

Identifizieren Sie die Tag-Struktur, die von den Entwicklertools des Browsers erworben werden soll.
Dieses Mal können Sie es erhalten, indem Sie das href-Attribut "news.yahoo.co.jp/pickup" abgleichen.
Importieren Sie das Modul re, eine Standardbibliothek, um reguläre Ausdrücke zu verwenden.
Überprüfen Sie später Offizielle Dokumente.
Extrahieren Sie das Textattribut und das href-Attribut aus den erfassten Elementen.

Code

`ScrapingSample.py`


import requests
from bs4 import BeautifulSoup
import re

url = "https://www.yahoo.co.jp/"

#Erhalten Sie Site-Informationen mithilfe von Anfragen
result = requests.get(url)
#Elemente analysieren
bs = BeautifulSoup(result.text, "html.parser")
#Der Link ist"news.yahoo.co.jp/pickup"Holen Sie sich passende Artikel
news_list = bs.find_all(href=re.compile("news.yahoo.co.jp/pickup"))

#Extrahieren Sie Textattribute und href-Attribute aus den erfassten Elementen
for news in news_list:
      print("{0} , {1}".format(news.getText(), news.get('href')))

Ausführungsergebnis

3 Präfekturen haben Maskenkäufer freigelassen, https://news.yahoo.co.jp/pickup/6360522
USA diskutiert Wiederaufnahme des Atomtests US-Zeitung, https://news.yahoo.co.jp/pickup/6360527
Hell und dunkel NEU bei Subaru und Mitsubishi Corona, https://news.yahoo.co.jp/pickup/6360528
Anti-Malaria-Medikament erhöhtes Todesrisiko NEU, https://news.yahoo.co.jp/pickup/6360523
Eine Frau in den Vierzigern und Vierzigern brach vor Tagesanbruch ab, https://news.yahoo.co.jp/pickup/6360529
Maskenlieferung in Iwate Voice von heute NEU, https://news.yahoo.co.jp/pickup/6360521
Reitklub Prise Ich möchte vermeiden, zu töten, https://news.yahoo.co.jp/pickup/6360510
Rina Akiyama bringt einen zweiten Jungen zur Welt NEU, https://news.yahoo.co.jp/pickup/6360531

"NEU" wurde ebenfalls extrahiert, aber ich denke, es ist in Ordnung, es zu ersetzen, wenn es nicht erforderlich ist (nicht in dieser Implementierung enthalten).

abschließend

Es war ein einfacher Inhalt, aber ich möchte mein Verständnis vertiefen, indem ich die offiziellen Dokumente lese.