Aidemy https:// aidemy.net 2020/9/21
Hallo, es ist ja! Ich bin ein Student, aber ich interessiere mich für das AI-Feld, also studiere ich an der AI-spezialisierten Schule "Aidemy". Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der erste Beitrag zum Schaben. Freut mich, dich kennenzulernen.
Was diesmal zu lernen ・ Was ist Schaben? ・ Holen Sie sich eine Webseite (Crawlen)
-Scraping ist die Arbeit des automatischen Extrahierens der erforderlichen Informationen von __Web-Seiten __.
・ Überprüfen Sie, ob das Schaben in Ordnung ist. Wenn eine API bereitgestellt wird, die Daten erfassen kann, verwenden Sie diese.
-__ Wget-Befehl : Verwenden Sie den wget-Befehl, um eine Webseite herunterzuladen, und verwenden Sie den Unix-Befehl oder den regulären Ausdruck, um zu kratzen. __ Einfach und leicht, aber ohne Funktionalität. __ __ - Web-Scraping-Tool : Verwenden Sie Chrome-Erweiterungen, Tabellenkalkulationen und andere Tools, die das Scraping ermöglichen. Bitte beachten Sie, dass einige Punkte wie __ Funktionen eingeschränkt sind und möglicherweise eine Gebühr __ anfällt. - Programmierung__: Programmieren Sie die Scraping-Funktion selbst. __ Kann komplexe Daten verarbeiten. __ Dieses Mal werde ich auf diese Weise kratzen.
-Encoding ist __ Codierung von Daten in ein anderes Format __. -Decoding dient dazu, __codierte Daten in ihr ursprüngliches Format __ zurückzusetzen.
from urllib.request import urlopen
#Holen Sie sich die Google URL
url=urlopen("https://www.google.co.jp")
url = urlopen("https://www.google.co.jp")
#Zeichencode abrufen und anzeigen
encode = url.info().get_content_charset(failobj="utf-8")
print(encode) #shift_jis
#Dekodieren Sie die bereits codierte URL mit dem erfassten Zeichencode (codieren)
url_decoded = url.decode(encode)
print(url_decoded.read()) #Abkürzung (HTML-Code wird ausgegeben)
-Wenn Sie das Modul request importieren und verwenden, können Sie die Webseite einfacher als urllib abrufen. Bei der Durchführung komplizierter Vorgänge wird die Vorverarbeitung jedoch schwierig. Sie können die URL mit __requests.get ("URL") __ abrufen. Für die erhaltene URL können Sie den Zeichencode mithilfe von encoding und den decodierten HTML-Code mithilfe von text abrufen.
import requests
url=requests.get("https://www.google.co.jp")
print(url.encoding) #shift_jis
print(url.text) #Abkürzung
-Scraping besteht darin, eine Webseite zu erfassen und die erforderlichen Daten daraus zu extrahieren. Beim maschinellen Lernen werden die zum Lernen erforderlichen Daten gesammelt.
Diese Zeit ist vorbei. Vielen Dank, dass Sie so weit gelesen haben.
Recommended Posts