[PYTHON] Lernaufzeichnung (2. Tag) Scraping von #BeautifulSoup

Inhalt des Studiums

Kratzen mit schöner Suppe

Eine Bibliothek, die Informationen aus HTML und XML extrahiert und analysiert. Da es keine Download-Funktion gibt, verwenden Sie diese zusammen mit "urllib".

Unten die grundlegende Verwendung von Beautiful Soup

# Bibliothek importieren
from bs4 import BeautifulSoup

html1 = """
<html><body>
 <h1> Schaben </ h1>
 <p> Webseitenanalyse </ p>
 <p> Extraktion beliebiger Teile </ p>
</body></html>
"""

# HTML-Analyse
soup = BeautifulSoup(html1, 'html.parser')

# Beliebige Elemente extrahieren
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

print(h1.string)
print(p1.string)
print(p2.string)

Ausführungsergebnis

Schaben Webseiten extrahieren Extraktion beliebiger Teile

Schaben mit "Schöne Suppe" und "Urllib"

# Bibliothek importieren
import urllib.request as req
from bs4 import BeautifulSoup

url = "https://api.aoikujira.com/zip/xml/1500042"

res = req.urlopen(url)

# Analysieren Sie die von urlopen () erfassten Daten
soup = BeautifulSoup(res, 'html.parser')

ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string

print(ken, shi, cho)

Verweise

Ich habe den GitHub angehängt, der aus dem Buch veröffentlicht wurde, auf das ich mich bezog. Zusätzliche Überarbeitung Python Scraping & Entwicklungstechnik für maschinelles Lernen

Recommended Posts

Lernaufzeichnung (2. Tag) Scraping von #BeautifulSoup
Lernrekord Nr. 18 (22. Tag)
Lernrekord Nr. 28 (32. Tag)
Lernaufzeichnung (3. Tag) # CSS-Selektorbeschreibungsmethode #Scraping with BeautifulSoup
Lernrekord 4 (8. Tag)
Lernrekord 9 (13. Tag)
Lernrekord 3 (7. Tag)
Lernrekord 5 (9. Tag)
Lernrekord 6 (10. Tag)
Programmieren des Lernprotokolls 2. Tag
Lernrekord 8 (12. Tag)
Lernrekord 1 (4. Tag)
Lernrekord 7 (11. Tag)
Lernrekord 2 (6. Tag)
Lernrekord 16 (20. Tag)
Lernrekord 22 (26. Tag)
_ 3. Tag bis eine gute Genauigkeit durch Blattklassifizierung erreicht wird
1. Tag, bis eine gute Genauigkeit durch Blattklassifizierung erreicht wird
Lernaufzeichnung (2. Tag) Scraping von #BeautifulSoup
Lernrekord Nr. 21 (25. Tag)
Lernrekord 13 (17. Tag) Kaggle3
Lernrekord Nr. 17 (21. Tag)
Lernrekord Nr. 24 (28. Tag)
Lernrekord Nr. 19 (23. Tag)
Lernrekord Nr. 29 (33. Tag)
Lernrekord Nr. 23 (27. Tag)
Lernrekord Nr. 25 (29. Tag)
Lernrekord Nr. 20 (24. Tag)
Lernrekord Nr. 27 (31. Tag)
Lernrekord Nr. 14 (18. Tag) Kaggle4
Lernrekord Nr. 15 (19. Tag) Kaggle5
Lernrekord 11 (15. Tag) Kaggle-Teilnahme
Lernaufzeichnung
Lernrekord Nr. 1
Lernrekord Nr. 2
Python-Lerntag 4
Bisherige Lernbilanz
Linux-Lernprotokoll ① Planen
Sammeln Sie Daten zum maschinellen Lernen, indem Sie aus biobasierten öffentlichen Datenbanken kratzen