[PYTHON] In 100 Tagen sind Sie Ingenieur. ――Tag 73 ――Programmieren ――Über das Schaben 4

Klicken Sie hier bis gestern

Sie werden Ingenieur in 100 Tagen - Tag 70 - Programmieren - Über Scraping

Sie werden in 100 Tagen Ingenieur - Tag 66 - Programmierung - Über die Verarbeitung natürlicher Sprache

Sie werden in 100 Tagen Ingenieur - Tag 63 - Programmierung - Über Wahrscheinlichkeit 1

Sie werden in 100 Tagen Ingenieur - Tag 59 - Programmierung - Über Algorithmen

Sie werden in 100 Tagen Ingenieur --- Tag 53 - Git - Über Git

Sie werden in 100 Tagen Ingenieur - Tag 42 - Cloud - Über Cloud-Dienste

Sie werden in 100 Tagen Ingenieur - Tag 36 - Datenbank - Über die Datenbank

Sie werden Ingenieur in 100-Tage-24-Python-Grundlagen der Python-Sprache 1

Sie werden in 100 Tagen Ingenieur - Tag 18 - JavaScript - Grundlagen von JavaScript 1

Sie werden in 100 Tagen Ingenieur - 14. Tag - CSS - CSS-Grundlagen 1

Sie werden in 100 Tagen Ingenieur - Tag 6 - HTML - HTML-Grundlagen 1

Diese Zeit ist auch eine Fortsetzung des Schabens.

Bis zum letzten Mal wurden die Anforderungs- und Syntaxanalyse abgeschlossen. Diesmal ist es eine Methode zum Speichern der erfassten Daten.

Speichern Sie die erfassten Informationen

Weil "Scraping" oft nicht mit einer URL endet Daten können gespeichert werden, indem die erfassten Informationen in einem Listentyp usw. gespeichert und entsprechend in eine Datei oder Datenbank ausgegeben werden.

import requests
from bs4 import BeautifulSoup

url = 'Zugriffs-URL'
res = requests.get(url)
soup = BeautifulSoup(res.content, "html.parser")

#Bereiten Sie eine leere Liste vor
result_list = []

#Holen Sie sich alle Tags
a_tags = soup.find_all('a')
for a in a_tags[0:10]:
    #Speichern Sie die href des a-Tags in der Liste
    result_list.append(a.get('href'))

print(result_list)

['http://www.otupy.com', '/otu/', '/business/', '/global/', '/news/', '/python/', '/visits/', '/recruit/', '/vision/']

Sie können das, was Sie in der Liste gespeichert haben, mit dem folgenden Code ablegen.

with open('Dateipfad','w') as _w:
    for row in result_list:
        _w.write('\t'.join(row))

So laden Sie Dateien herunter

Durch Scraping können nicht nur Textinformationen erhalten werden. Wenn das Anforderungsziel eine Datei ist, können Sie die Datei abrufen.

Sie können die Datei mit dem folgenden Code herunterladen.

import requests
import os

url = 'Datei-URL'

#Extrahieren Sie den Dateinamen aus der URL
file_name = os.path.basename(url)
print(file_name)

#Stream-Zugriff auf die Ziel-URL
res = requests.get(url, stream=True)
if res.status_code == 200:
    print('file download start {0}'.format(file_name))
    #Schreiben Sie eine Datei mit einem Bytecode
    
    with open(file_name, 'wb') as file:
        # chunk_Fahren Sie mit dem Schreiben der Datei für jede Größe fort
        for chunk in res.iter_content(chunk_size=1024):
            file.write(chunk)
    print('file download end   {0}'.format(file_name))

Um als Datei zu speichern, müssen Sie darauf zugreifen Schreiben Sie die Antwort als Datei.

Schreiben Sie nach und nach mit "res.iter_content (chunk_size = chunk size)".

URL-Codierung

Sonderzeichen wie Japanisch können in der URL nicht verwendet werden. Wenn Sie bei der Suche nach Japanisch Japanisch für die URL verwenden möchten Sie müssen die Zeichenfolge in einen bestimmten Code konvertieren (eine Liste von Symbolen und alphanumerischen Zeichen).

Das Erstellen einer Zeichenfolge, die in einer URL aus dem Japanischen verwendet werden kann, wird als "URL-Codierung" bezeichnet.

Im Gegenteil, Konvertieren einer Zeichenfolge, die "URL-codiert" und nicht lesbar ist, in einen Zustand, in dem sie erneut gelesen werden kann Es heißt "URL-Dekodierung".

Python verwendet die Urllib-Bibliothek.

** URL-Codierung ** urllib.parse.quote ('Zielzeichenfolge')

** Dekodieren ** urllib.parse.unquote ('Zielzeichenfolge')

import urllib.parse

#URL-Codierung
st = 'Otsu py'
s_quote = urllib.parse.quote(st)
print(s_quote)

##Dekodieren
d_quote = urllib.parse.unquote('%E4%B9%99py')
print(d_quote)

%E4%B9%99py Otsu py

Zusammenfassung

Enthält zusätzliches Wissen zum Schaben. Da es sich um eine kleine Menge handelt, können Sie sie sofort ausprobieren.

Lassen Sie uns die Protokolle bis gestern überprüfen.

27 Tage, bis Sie Ingenieur werden

Informationen zum Autor

HP von Otsu py: http://www.otupy.net/

Youtube: https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter: https://twitter.com/otupython

Recommended Posts

In 100 Tagen sind Sie Ingenieur. ――Tag 71 ――Programmieren ――Über das Schaben 2
In 100 Tagen sind Sie Ingenieur. ――Tag 74 ――Programmieren ――Über das Schaben 5
In 100 Tagen sind Sie Ingenieur. ――Tag 73 ――Programmieren ――Über das Schaben 4
In 100 Tagen sind Sie Ingenieur. ――Tag 75 ――Programmieren ――Über das Schaben 6
In 100 Tagen sind Sie Ingenieur. ――Tag 70 ――Programmieren ――Über das Schaben
In 100 Tagen sind Sie Ingenieur. ――Tag 61 ――Programmieren ――Über Erkundung
In 100 Tagen sind Sie Ingenieur. ――Tag 68 ――Programmieren ――Über TF-IDF
In 100 Tagen sind Sie Ingenieur. ――Tag 81 ――Programmieren ――Über maschinelles Lernen 6
In 100 Tagen sind Sie Ingenieur. ――Tag 79 ――Programmieren ――Über maschinelles Lernen 4
In 100 Tagen sind Sie Ingenieur. ――Tag 76 ――Programmieren ――Über maschinelles Lernen
In 100 Tagen sind Sie Ingenieur. ――Tag 80 ――Programmieren ――Über maschinelles Lernen 5
In 100 Tagen sind Sie Ingenieur. ――Tag 78 ――Programmieren ――Über maschinelles Lernen 3
Sie werden in 100 Tagen Ingenieur. ――Tag 84 ――Programmieren ――Über maschinelles Lernen 9
In 100 Tagen sind Sie Ingenieur. ――Tag 83 ――Programmieren ――Über maschinelles Lernen 8
In 100 Tagen sind Sie Ingenieur. ――Tag 77 ――Programmieren ――Über maschinelles Lernen 2
In 100 Tagen sind Sie Ingenieur. ――Tag 85 ――Programmieren ――Über maschinelles Lernen 10
Sie werden in 100 Tagen Ingenieur. ――Tag 65 ――Programmieren ――Über Wahrscheinlichkeit 3
Sie werden in 100 Tagen Ingenieur - Tag 86 - Datenbank - Über Hadoop
In 100 Tagen sind Sie Ingenieur. ――Tag 60 ――Programmieren ――Über Datenstruktur und Sortieralgorithmus
Sie werden in 100 Tagen Ingenieur - Tag 34 - Python - Python-Übung 3
Sie werden in 100 Tagen Ingenieur - 31. Tag - Python - Python-Übung 2
Sie werden in 100 Tagen Ingenieur. ――Tag 67 ――Programmieren ――Über morphologische Analyse
Sie werden in 100 Tagen Ingenieur. ――Tag 66 ――Programmieren ――Über die Verarbeitung natürlicher Sprache
Sie werden in 100 Tagen Ingenieur. ――Tag 30 ―― Python ―― Grundlagen der Python-Sprache 6
Sie werden in 100 Tagen Ingenieur. ――Tag 25 ―― Python ―― Grundlagen der Python-Sprache 2
Sie werden in 100 Tagen Ingenieur - 29. Tag - Python - Grundlagen der Python-Sprache 5
Sie werden in 100 Tagen Ingenieur - Tag 33 - Python - Grundlagen der Python-Sprache 8
Sie werden in 100 Tagen Ingenieur - 26. Tag - Python - Grundlagen der Python-Sprache 3
Sie werden in 100 Tagen Ingenieur - Tag 35 - Python - Was Sie mit Python tun können
Sie werden in 100 Tagen Ingenieur - Tag 32 - Python - Grundlagen der Python-Sprache 7
Sie werden in 100 Tagen Ingenieur - 28. Tag - Python - Grundlagen der Python-Sprache 4
Wenn beim Python-Scraping ein Fehler auftritt (Anforderungen)
Sie müssen vorsichtig mit den Befehlen sein, die Sie jeden Tag in der Produktionsumgebung verwenden.