Aidemy https:// aidemy.net　2020/9/21

Einführung

Hallo, es ist ja! Ich bin ein Student, aber ich interessiere mich für das AI-Feld, also studiere ich an der AI-spezialisierten Schule "Aidemy". Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag zum Schaben. Freut mich, dich kennenzulernen.

Dieser Artikel ist eine Zusammenfassung dessen, was Sie in "Aidemy" "in Ihren eigenen Worten" gelernt haben. Es kann Fehler und Missverständnisse enthalten. Bitte beachten Sie.

Was diesmal zu lernen ・ Was ist Schaben? ・ Holen Sie sich eine Webseite (Crawlen)

Was ist Schaben?

Über das Schaben

-Scraping ist die Arbeit des automatischen Extrahierens der erforderlichen Informationen von __Web-Seiten __.

Durch Scraping ist es möglich, eine große Datenmenge zu sammeln, die für maschinelles Lernen erforderlich ist. Bitte beachten Sie jedoch, dass die Daten im Web möglicherweise nicht die Daten __ (offene Daten) __ sind, die frei verwendet werden dürfen.

Kratzfluss

・ Überprüfen Sie, ob das Schaben in Ordnung ist. Wenn eine API bereitgestellt wird, die Daten erfassen kann, verwenden Sie diese.

Holen Sie sich eine Webseite, auf der Sie Daten abrufen können. Dies nennt man __crawling __. ・ Erhalten Sie die erforderlichen Informationen von der Webseite. (Schaben)

Drei Hauptmethoden zum Schaben

-__ Wget-Befehl : Verwenden Sie den wget-Befehl, um eine Webseite herunterzuladen, und verwenden Sie den Unix-Befehl oder den regulären Ausdruck, um zu kratzen. __ Einfach und leicht, aber ohne Funktionalität. __ __ - Web-Scraping-Tool : Verwenden Sie Chrome-Erweiterungen, Tabellenkalkulationen und andere Tools, die das Scraping ermöglichen. Bitte beachten Sie, dass einige Punkte wie __ Funktionen eingeschränkt sind und möglicherweise eine Gebühr __ anfällt. - Programmierung__: Programmieren Sie die Scraping-Funktion selbst. __ Kann komplexe Daten verarbeiten. __ Dieses Mal werde ich auf diese Weise kratzen.

Kodieren und dekodieren

-Encoding ist __ Codierung von Daten in ein anderes Format __. -Decoding dient dazu, __codierte Daten in ihr ursprüngliches Format __ zurückzusetzen.

Beim Scraping können Daten durch einmaliges Codieren erfasst werden, um temporäre Daten zu erfassen und die temporären Daten zu decodieren.

Holen Sie sich eine Webseite (crawlen)

Holen Sie sich eine Webseite

Um die Webseite abzurufen, verwenden Sie __urlopen ("URL") __, das durch Importieren des Moduls urllib.request verwendet werden kann.
Obwohl auf die erfasste Webseite mit der Methode read () verwiesen werden kann, beachten Sie, dass es sich nicht um eine Zeichenfolge (Typ str) handelt, da sie nicht __decodiert ist. (Überprüfen Sie die Dekodierungsmethode in den folgenden Abschnitten.)

from urllib.request import urlopen
#Holen Sie sich die Google URL
url=urlopen("https://www.google.co.jp")

Dekodieren Sie die abgerufene Webseite

Für die Dekodierung sind Informationen zum auf der Webseite verwendeten "Zeichencode" erforderlich. Erhalten Sie diese also zuerst. Der Zeichencode kann mit der Methode __info (). Get_content_charset (failobj = "utf-8") __ abgerufen werden. -Die obige Methode (failobj = "utf-8") bedeutet, dass der Zeichencode automatisch in "utf-8" geändert wird, wenn der Zeichencode (Zeichensatz) auf der Webseite nicht angegeben ist. Gibt es. Die japanische Seite ist im Grunde "utf-8", daher wird sie wie folgt angegeben.

url = urlopen("https://www.google.co.jp")
#Zeichencode abrufen und anzeigen
encode = url.info().get_content_charset(failobj="utf-8")
print(encode) #shift_jis

Sobald der Zeichencode abgerufen werden kann, dekodieren Sie ihn gemäß dem Zeichencode und erhalten Sie den -Teil als HTML-Code vom Typ str. -Decodierung erfolgt mit __url.decode (Zeichencode) __. Sie können den Inhalt mit read () überprüfen.

#Dekodieren Sie die bereits codierte URL mit dem erfassten Zeichencode (codieren)
url_decoded = url.decode(encode)
print(url_decoded.read()) #Abkürzung (HTML-Code wird ausgegeben)

Holen Sie sich Webseiten einfacher

-Wenn Sie das Modul request importieren und verwenden, können Sie die Webseite einfacher als urllib abrufen. Bei der Durchführung komplizierter Vorgänge wird die Vorverarbeitung jedoch schwierig. Sie können die URL mit __requests.get ("URL") __ abrufen. Für die erhaltene URL können Sie den Zeichencode mithilfe von encoding und den decodierten HTML-Code mithilfe von text abrufen.

import requests
url=requests.get("https://www.google.co.jp")
print(url.encoding) #shift_jis
print(url.text) #Abkürzung

Zusammenfassung

-Scraping besteht darin, eine Webseite zu erfassen und die erforderlichen Daten daraus zu extrahieren. Beim maschinellen Lernen werden die zum Lernen erforderlichen Daten gesammelt.

Beim Erfassen (Crawlen) einer Webseite wird die Funktion __urlopen () __ des Moduls urllib.request verwendet, sie kann jedoch nur dann als Daten behandelt werden, wenn sie dekodiert wird.
Zum Dekodieren müssen Sie zuerst den Zeichencode der Webseite abrufen und die Methode __decode () __ gemäß dem Zeichencode verwenden. -Wenn Sie das Anforderungsmodul verwenden, können Sie die URL mit __requests.get () __ abrufen, während Sie den Zeichencode mit encoding und den HTML-Code mit text im decodierten Zustand abrufen können. Es ist sehr leicht.

Diese Zeit ist vorbei. Vielen Dank, dass Sie so weit gelesen haben.

[PYTHON] Schaben 1