[PYTHON] In 100 Tagen sind Sie Ingenieur. ――Tag 73 ――Programmieren ――Über das Schaben 4

Klicken Sie hier bis gestern

Diese Zeit ist auch eine Fortsetzung des Schabens.

Bis zum letzten Mal wurden die Anforderungs- und Syntaxanalyse abgeschlossen. Diesmal ist es eine Methode zum Speichern der erfassten Daten.

Speichern Sie die erfassten Informationen

Weil "Scraping" oft nicht mit einer URL endet Daten können gespeichert werden, indem die erfassten Informationen in einem Listentyp usw. gespeichert und entsprechend in eine Datei oder Datenbank ausgegeben werden.

import requests
from bs4 import BeautifulSoup

url = 'Zugriffs-URL'
res = requests.get(url)
soup = BeautifulSoup(res.content, "html.parser")

#Bereiten Sie eine leere Liste vor
result_list = []

#Holen Sie sich alle Tags
a_tags = soup.find_all('a')
for a in a_tags[0:10]:
    #Speichern Sie die href des a-Tags in der Liste
    result_list.append(a.get('href'))

print(result_list)

['http://www.otupy.com', '/otu/', '/business/', '/global/', '/news/', '/python/', '/visits/', '/recruit/', '/vision/']

Sie können das, was Sie in der Liste gespeichert haben, mit dem folgenden Code ablegen.

with open('Dateipfad','w') as _w:
    for row in result_list:
        _w.write('\t'.join(row))

So laden Sie Dateien herunter

Durch Scraping können nicht nur Textinformationen erhalten werden. Wenn das Anforderungsziel eine Datei ist, können Sie die Datei abrufen.

Sie können die Datei mit dem folgenden Code herunterladen.

import requests
import os

url = 'Datei-URL'

#Extrahieren Sie den Dateinamen aus der URL
file_name = os.path.basename(url)
print(file_name)

#Stream-Zugriff auf die Ziel-URL
res = requests.get(url, stream=True)
if res.status_code == 200:
    print('file download start {0}'.format(file_name))
    #Schreiben Sie eine Datei mit einem Bytecode
    
    with open(file_name, 'wb') as file:
        # chunk_Fahren Sie mit dem Schreiben der Datei für jede Größe fort
        for chunk in res.iter_content(chunk_size=1024):
            file.write(chunk)
    print('file download end   {0}'.format(file_name))

Um als Datei zu speichern, müssen Sie darauf zugreifen Schreiben Sie die Antwort als Datei.

Schreiben Sie nach und nach mit "res.iter_content (chunk_size = chunk size)".

URL-Codierung

Sonderzeichen wie Japanisch können in der URL nicht verwendet werden. Wenn Sie bei der Suche nach Japanisch Japanisch für die URL verwenden möchten Sie müssen die Zeichenfolge in einen bestimmten Code konvertieren (eine Liste von Symbolen und alphanumerischen Zeichen).

Das Erstellen einer Zeichenfolge, die in einer URL aus dem Japanischen verwendet werden kann, wird als "URL-Codierung" bezeichnet.

Im Gegenteil, Konvertieren einer Zeichenfolge, die "URL-codiert" und nicht lesbar ist, in einen Zustand, in dem sie erneut gelesen werden kann Es heißt "URL-Dekodierung".

Python verwendet die Urllib-Bibliothek.

** URL-Codierung ** urllib.parse.quote ('Zielzeichenfolge')

** Dekodieren ** urllib.parse.unquote ('Zielzeichenfolge')

import urllib.parse

#URL-Codierung
st = 'Otsu py'
s_quote = urllib.parse.quote(st)
print(s_quote)

##Dekodieren
d_quote = urllib.parse.unquote('%E4%B9%99py')
print(d_quote)

%E4%B9%99py Otsu py

Zusammenfassung

Enthält zusätzliches Wissen zum Schaben. Da es sich um eine kleine Menge handelt, können Sie sie sofort ausprobieren.

Lassen Sie uns die Protokolle bis gestern überprüfen.

27 Tage, bis Sie Ingenieur werden

Informationen zum Autor

HP von Otsu py: http://www.otupy.net/

Youtube： https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter： https://twitter.com/otupython