[PYTHON] Schaben 1

Aidemy https:// aidemy.net 2020/9/21

Einführung

Hallo, es ist ja! Ich bin ein Student, aber ich interessiere mich für das AI-Feld, also studiere ich an der AI-spezialisierten Schule "Aidemy". Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag zum Schaben. Freut mich, dich kennenzulernen.

Was diesmal zu lernen ・ Was ist Schaben? ・ Holen Sie sich eine Webseite (Crawlen)

Was ist Schaben?

Über das Schaben

-Scraping ist die Arbeit des automatischen Extrahierens der erforderlichen Informationen von __Web-Seiten __.

Kratzfluss

・ Überprüfen Sie, ob das Schaben in Ordnung ist. Wenn eine API bereitgestellt wird, die Daten erfassen kann, verwenden Sie diese.

Drei Hauptmethoden zum Schaben

-__ Wget-Befehl : Verwenden Sie den wget-Befehl, um eine Webseite herunterzuladen, und verwenden Sie den Unix-Befehl oder den regulären Ausdruck, um zu kratzen. __ Einfach und leicht, aber ohne Funktionalität. __ __ - Web-Scraping-Tool : Verwenden Sie Chrome-Erweiterungen, Tabellenkalkulationen und andere Tools, die das Scraping ermöglichen. Bitte beachten Sie, dass einige Punkte wie __ Funktionen eingeschränkt sind und möglicherweise eine Gebühr __ anfällt. - Programmierung__: Programmieren Sie die Scraping-Funktion selbst. __ Kann komplexe Daten verarbeiten. __ Dieses Mal werde ich auf diese Weise kratzen.

Kodieren und dekodieren

-Encoding ist __ Codierung von Daten in ein anderes Format __. -Decoding dient dazu, __codierte Daten in ihr ursprüngliches Format __ zurückzusetzen.

Holen Sie sich eine Webseite (crawlen)

Holen Sie sich eine Webseite

from urllib.request import urlopen
#Holen Sie sich die Google URL
url=urlopen("https://www.google.co.jp")

Dekodieren Sie die abgerufene Webseite

url = urlopen("https://www.google.co.jp")
#Zeichencode abrufen und anzeigen
encode = url.info().get_content_charset(failobj="utf-8")
print(encode) #shift_jis
#Dekodieren Sie die bereits codierte URL mit dem erfassten Zeichencode (codieren)
url_decoded = url.decode(encode)
print(url_decoded.read()) #Abkürzung (HTML-Code wird ausgegeben)

Holen Sie sich Webseiten einfacher

-Wenn Sie das Modul request importieren und verwenden, können Sie die Webseite einfacher als urllib abrufen. Bei der Durchführung komplizierter Vorgänge wird die Vorverarbeitung jedoch schwierig. Sie können die URL mit __requests.get ("URL") __ abrufen. Für die erhaltene URL können Sie den Zeichencode mithilfe von encoding und den decodierten HTML-Code mithilfe von text abrufen.

import requests
url=requests.get("https://www.google.co.jp")
print(url.encoding) #shift_jis
print(url.text) #Abkürzung

Zusammenfassung

-Scraping besteht darin, eine Webseite zu erfassen und die erforderlichen Daten daraus zu extrahieren. Beim maschinellen Lernen werden die zum Lernen erforderlichen Daten gesammelt.

Diese Zeit ist vorbei. Vielen Dank, dass Sie so weit gelesen haben.

Recommended Posts

Schaben 1
Verschiedene Kratzer
Beginn des Schabens
[Scraping] Python-Scraping
Probe abkratzen
Web Scraping
Python-Scraping-Memo
Schaben mit Selen
Schaben mit Selen ~ 2 ~
Über Twitter Scraping
Ich habe versucht zu kratzen
Web Scraping (Prototyp)
Python Scraping eBay
Schaben mit Selen
100 Fortnite-Bilder kratzen
Python Scraping get_title
Python: Scraping Teil 1
Scraping mit Python
Python: Scraping Teil 2
Erfolgreiches Schaben mit Selen
Scraping in Python (Vorbereitung)
Versuchen Sie es mit Python.
UnicodeEncodeError: 'cp932' während des Python-Scrapings
Grundlagen der Python-Scraping-Grundlagen
Scraping mit Python + PhantomJS
Erste Schritte mit Web Scraping
Schaben mit kratzender Schale
Erstellung von Schabewerkzeugen
Scraping: Website lokal speichern
Scraping der Powerpoint (pptx) -Tabelle
Den Zeitplan der Keikyu-Linie abkratzen
Schaben mit Selen [Python]
Scraping mit Python + PyQuery
Kratzen mit schöner Suppe
Scraping von RSS mit Python