Klicken Sie hier bis gestern
Sie werden Ingenieur in 100 Tagen - Tag 70 - Programmieren - Über Scraping
Sie werden in 100 Tagen Ingenieur - Tag 63 - Programmierung - Über Wahrscheinlichkeit 1
Sie werden in 100 Tagen Ingenieur - Tag 59 - Programmierung - Über Algorithmen
Sie werden in 100 Tagen Ingenieur --- Tag 53 - Git - Über Git
Sie werden in 100 Tagen Ingenieur - Tag 42 - Cloud - Über Cloud-Dienste
Sie werden in 100 Tagen Ingenieur - Tag 36 - Datenbank - Über die Datenbank
Sie werden Ingenieur in 100-Tage-24-Python-Grundlagen der Python-Sprache 1
Sie werden in 100 Tagen Ingenieur - Tag 18 - JavaScript - Grundlagen von JavaScript 1
Sie werden in 100 Tagen Ingenieur - 14. Tag - CSS - CSS-Grundlagen 1
Sie werden in 100 Tagen Ingenieur - Tag 6 - HTML - HTML-Grundlagen 1
Diese Zeit ist auch eine Fortsetzung des Schabens.
Bis zum letzten Mal wurden die Anforderungs- und Syntaxanalyse abgeschlossen. Diesmal ist es eine Methode zum Speichern der erfassten Daten.
Weil "Scraping" oft nicht mit einer URL endet Daten können gespeichert werden, indem die erfassten Informationen in einem Listentyp usw. gespeichert und entsprechend in eine Datei oder Datenbank ausgegeben werden.
import requests
from bs4 import BeautifulSoup
url = 'Zugriffs-URL'
res = requests.get(url)
soup = BeautifulSoup(res.content, "html.parser")
#Bereiten Sie eine leere Liste vor
result_list = []
#Holen Sie sich alle Tags
a_tags = soup.find_all('a')
for a in a_tags[0:10]:
#Speichern Sie die href des a-Tags in der Liste
result_list.append(a.get('href'))
print(result_list)
['http://www.otupy.com', '/otu/', '/business/', '/global/', '/news/', '/python/', '/visits/', '/recruit/', '/vision/']
Sie können das, was Sie in der Liste gespeichert haben, mit dem folgenden Code ablegen.
with open('Dateipfad','w') as _w:
for row in result_list:
_w.write('\t'.join(row))
Durch Scraping können nicht nur Textinformationen erhalten werden. Wenn das Anforderungsziel eine Datei ist, können Sie die Datei abrufen.
Sie können die Datei mit dem folgenden Code herunterladen.
import requests
import os
url = 'Datei-URL'
#Extrahieren Sie den Dateinamen aus der URL
file_name = os.path.basename(url)
print(file_name)
#Stream-Zugriff auf die Ziel-URL
res = requests.get(url, stream=True)
if res.status_code == 200:
print('file download start {0}'.format(file_name))
#Schreiben Sie eine Datei mit einem Bytecode
with open(file_name, 'wb') as file:
# chunk_Fahren Sie mit dem Schreiben der Datei für jede Größe fort
for chunk in res.iter_content(chunk_size=1024):
file.write(chunk)
print('file download end {0}'.format(file_name))
Um als Datei zu speichern, müssen Sie darauf zugreifen Schreiben Sie die Antwort als Datei.
Schreiben Sie nach und nach mit "res.iter_content (chunk_size = chunk size)".
Sonderzeichen wie Japanisch können in der URL nicht verwendet werden. Wenn Sie bei der Suche nach Japanisch Japanisch für die URL verwenden möchten Sie müssen die Zeichenfolge in einen bestimmten Code konvertieren (eine Liste von Symbolen und alphanumerischen Zeichen).
Das Erstellen einer Zeichenfolge, die in einer URL aus dem Japanischen verwendet werden kann, wird als "URL-Codierung" bezeichnet.
Im Gegenteil, Konvertieren einer Zeichenfolge, die "URL-codiert" und nicht lesbar ist, in einen Zustand, in dem sie erneut gelesen werden kann Es heißt "URL-Dekodierung".
Python verwendet die Urllib-Bibliothek.
** URL-Codierung **
urllib.parse.quote ('Zielzeichenfolge')
** Dekodieren **
urllib.parse.unquote ('Zielzeichenfolge')
import urllib.parse
#URL-Codierung
st = 'Otsu py'
s_quote = urllib.parse.quote(st)
print(s_quote)
##Dekodieren
d_quote = urllib.parse.unquote('%E4%B9%99py')
print(d_quote)
%E4%B9%99py Otsu py
Enthält zusätzliches Wissen zum Schaben. Da es sich um eine kleine Menge handelt, können Sie sie sofort ausprobieren.
Lassen Sie uns die Protokolle bis gestern überprüfen.
27 Tage, bis Sie Ingenieur werden
HP von Otsu py: http://www.otupy.net/
Youtube: https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw
Twitter: https://twitter.com/otupython
Recommended Posts