Grundlagen der Python-Scraping-Grundlagen

Verwenden des Python-Anforderungsmoduls und von Beautiful Soup Die Grundlagen des Scraping Grundlagen

Holen Sie sich Inhalte (hauptsächlich HTML) aus dem Web

--Code zum Abrufen und Anzeigen des gesamten HTML-Codes der URL:

`Holen Sie sich HTML`


import requests

url = "https://hogehoge12345.html"

response = requests.get(url)
response.encoding = response.apparent_encoding

print(response.text)

Verwenden Sie request.get (), um eine HTTP-Anfrage an die Argument-URL zu senden und die vom Server zurückgegebene HTTP-Antwort als Rückgabewert zu verwenden.
Verwenden Sie die scheinbare Codierung, um verstümmelte Zeichen so weit wie möglich zu vermeiden. ・ Response.text ist der Inhalt des erfassten Inhalts ・ Wenn Sie über eine URL zugreifen können, können Sie auch CSV, Bilddateien, Videodateien usw. abrufen (der Code ist der gleiche wie oben).

`1 Sekunde Intervall`


import time

time.sleep(1)

Wenn Sie HTTP über mehrere URLs nacheinander abrufen, lassen Sie ein Intervall von mindestens 1 Sekunde ein, um die Website der anderen Partei nicht zu stören. ・ Zunächst müssen die Nutzungsbeschränkungen bestätigt werden, z. B. ob auf die Website programmgesteuert zugegriffen werden kann oder ob die veröffentlichten Inhalte in Daten konvertiert werden.

`Speichern Sie den abgerufenen Webinhalt in einer Datei`


response = requests.get(url)
response.encoding = response.apparent_encoding

exam_html = response.text

with open('exam.html', mode='w', encoding='utf-8') as fp:
    fp.write(exam_html)

HTML-Analyse

** Verwenden Sie eine Bibliothek namens Schöne Suppe **.
Ein Programm, das HTML-Phrasen analysiert und Tags usw. als Datenstruktur erfasst, wird als HTML-Parser bezeichnet.

`python`


import requests
from bs4 import BeautifulSoup

url = "https://hogehoge12345.html"
response = requests.get(url)
response.encoding = response.apparent_encoding

#HTML analysieren
bs = BeautifulSoup(response.text, 'html.parser')

#Extrahieren Sie das vom ul-Tag eingeschlossene Teil
ul_tag = bs.find('ul')

#Extrahieren Sie das a-Tag im ul-Tag
for a_tag  in ul_tag.find_all('a'):

    #Holen Sie sich den Text des a-Tags
    text = a_tag.text        # => "Klicken Sie, um zum Link zu springen"

    #Ruft das href-Attribut des a-Tags ab
    link_url = a_tag['href'] # => "https://hogehoge12345.html/next"

    print('{}: {}'.format(text, link_url))

Holen Sie sich den HTML-Code von \
CSS-Auswahl
- Verwenden Sie ** CSS-Selektor **, um bestimmte Tags (Tags mit einer bestimmten CSS-Klasse usw.) zu extrahieren.) -Ausdrücken durch Verbinden von Tags und CSS-Klassen mit Punkten <div class = "exam_exam1"> -> div.exam1
Methode auswählen
```
# div.Extrahieren Sie den von Prüfung1 umgebenen Teil
div_exam1 = bs.select('div.exam1')
```
-Select () hat dieselbe Funktion wie find und find_all, um HTML-Elemente abzurufen und als Liste zurückzugeben. Sie können jedoch CSS-Selektoren in den Suchbedingungen angeben (Details finden Sie unter Link. Blog / Differenz-Finden-und-Auswählen-in-schöner-Python-Suppe /)).

Recommended Posts
Grundlagen der Python-Scraping-Grundlagen

Python-Grundlagen ①

Grundlagen von Python ①

# 4 [Python] Grundlagen der Funktionen

Grundlagen von Python: Ausgabe

Python-Grundlagen ⑤

Python-Grundlagen

Python-Grundlagen ④

Python: Grundlagen der Verwendung von Scikit-Learn ①

Python-Grundlagen ③

Python-Grundlagen

[Scraping] Python-Scraping

Python-Grundlagen

Python-Grundlagen

Python-Grundlagen ③

Python-Grundlagen ②

Python-Grundlagen ②

Python x GIS-Grundlagen (1)

Python x GIS-Grundlagen (3)

Paiza Python Primer 5: Grundlagen von Wörterbüchern

Erste Schritte mit Python Grundlagen von Python

Überprüfung der Grundlagen von Python (FizzBuzz)

Grundlagen von Python x GIS (Teil 2)

Informationen zur Grundlagenliste der Python-Grundlagen

Lernen Sie die Grundlagen von Python ① Grundlegende Anfänger

Python-Scraping-Memo

Python Scraping get_ranker_categories

Python-Grundlagen: Liste

Python-Grundmemorandum

Scraping mit Python

Scraping mit Python

# Python-Grundlagen (#matplotlib)

Python CGI-Grundlagen

Python-Grundlagen: Wörterbuch

Python Scraping eBay

Python Slice Grundlagen

# Python-Grundlagen (Umfang)

# Python-Grundlagen (#Numpy 1/2)

Python Scraping get_title

Kopie von Python

# Python-Grundlagen (#Numpy 2/2)

# Python-Grundlagen (Funktionen)

Python: Scraping Teil 1

Grundlagen des Python-Arrays

Grundlagen der Python-Profilerstellung

Python #Numpy Basics

Python-Grundlagen: Funktionen

Scraping mit Python

# Python-Grundlagen (Klasse)

Zusammenfassung der Python-Grundlagen

Python: Scraping Teil 2

Einführung von Python

Python: Grundlagen der Bilderkennung mit CNN

[Lernnotiz] Grundlagen des Unterrichts mit Python

[Python3] Verstehe die Grundlagen von Beautiful Soup

Ich kannte die Grundlagen von Python nicht

Grundlagen zum Ausführen von NoxPlayer in Python

[Grundlagen der Python-Grundlagen] Warum __name__ == "__main__"

[Python] Kapitel 02-04 Grundlagen des Python-Programms (Informationen zu Kommentaren)

[Python] Kapitel 02-03 Grundlagen von Python-Programmen (Eingabe / Ausgabe)

Grundlagen der Python-Scraping-Grundlagen

Holen Sie sich Inhalte (hauptsächlich HTML) aus dem Web

Holen Sie sich HTML

1 Sekunde Intervall

Speichern Sie den abgerufenen Webinhalt in einer Datei

HTML-Analyse

python

CSS-Auswahl

Methode auswählen

`Holen Sie sich HTML`

`1 Sekunde Intervall`

`Speichern Sie den abgerufenen Webinhalt in einer Datei`

`python`

`Methode auswählen`