[PYTHON] WEB-Scraping-Technologie und Bedenken

1. WEB Scraping

In der jüngsten Entwicklung von Big Data ist es erforderlich, wie viele Daten erfasst werden sollen.

WEB-Scraping kann als eine der Technologien übernommen werden.

In diesem Artikel möchte ich die Methoden des WEB-Scrapings und die Vorsichtsmaßnahmen hinsichtlich ihrer Verwendung zusammenfassen.

2. Was ist WEB Scraping?

Web Scraping ist eine Computersoftwaretechnologie, die Informationen von Websites extrahiert. Auch als Webcrawler [1] oder Webspider [2] bekannt. Solche Softwareprogramme erfassen WWW-Inhalte normalerweise durch Implementierung von HTTP auf niedriger Ebene oder durch Einbetten eines Webbrowsers. (Aus Wikipedia)

3. Herausforderungen beim WEB-Scraping

3-1. IP-Blockierung 3-2. Einhaltung der Unternehmensethik und Compliance

3-2. Einhaltung der Unternehmensethik und Compliance

3-2-1. Urheberrecht

Wenn aus der Last auf dem Server aufgrund von Scraping, den Nutzungsbedingungen der betreffenden Site keine entsprechende Beschreibung hervorgeht, ** ist das Urheberrecht außergewöhnlich, wenn der Zweck darin besteht, die Informationen zu analysieren **. Es scheint die allgemeine Ansicht zu sein, dass es kein Problem gibt, die Informationen anderer Unternehmen aufzuzeichnen oder anzupassen, die durch Abkratzen auf einem Aufzeichnungsmedium erhalten wurden, ohne die Zustimmung der Person einzuholen. (Stand 23.02.2020)

Urheberrecht Artikel 47-5 (Informationsverarbeitung durch einen elektronischen Computer und geringfügige Verwendung bei der Bereitstellung des Ergebnisses usw.)

Artikel 47-5 Beitrag zur Förderung der Nutzung von Werken durch Schaffung neuen Wissens oder neuer Informationen durch Informationsverarbeitung mit elektronischen Computern. Personen, die die in den folgenden Punkten aufgeführten Handlungen ausführen (einschließlich derjenigen, die einen Teil der Handlung ausführen und auf diejenigen beschränkt sind, die die Handlung gemäß den in der Regierungsverordnung festgelegten Standards ausführen), werden der Öffentlichkeit zur Verfügung gestellt oder vorgestellt (Übertragung ermöglichen). (Im Folgenden in diesem Artikel und im folgenden Artikel, Absatz 2, Punkt 2, als "öffentlich bereitgestellte Präsentationsarbeit" bezeichnet) (veröffentlichte Arbeit oder Übertragungsaktivierung) (Beschränkt auf Werke, die gemacht wurden) können in dem Umfang verwendet werden (die Werke, die der Öffentlichkeit präsentiert werden), soweit dies für die in den einzelnen Punkten aufgeführten Handlungen als notwendig erachtet wird, unabhängig davon, welche Methode im Zusammenhang mit den Handlungen angewendet wird. Davon sind der Anteil des für die Verwendung verwendeten Teils, die Menge des für die Verwendung verwendeten Teils, die Genauigkeit der Anzeige bei Verwendung des Teils und andere Faktoren auf geringfügige Faktoren beschränkt. "Minor use") kann durchgeführt werden. Wenn jedoch die Bereitstellung oder Präsentation des öffentlich angebotenen Werks für die Öffentlichkeit das Urheberrecht verletzt (wenn die Bereitstellung oder Präsentation für die Öffentlichkeit im Ausland im Inland erfolgt) Wenn der geringfügige Gebrauch gemacht wird, obwohl bekannt ist, dass es sich um eine Verletzung des Urheberrechts handelt, werden die Interessen des Inhabers des Urheberrechts in Anbetracht der Art und Verwendung des öffentlich zur Verfügung gestellten Werks und der Art des geringfügigen Gebrauchs unangemessen verletzt. In diesem Fall gilt dies nicht.

(1) Der Titel oder Autorenname des Werks, in dem die durch Suchen unter Verwendung eines elektronischen Computers erhaltenen Informationen (im Folgenden in dieser Ausgabe als "Suchinformationen" bezeichnet) aufgezeichnet werden, und der Absenderidentifikationscode in Bezug auf die Suchinformationen, die zur Übertragung aktiviert wurden. (Ein Zeichen, eine Nummer, ein Symbol oder ein anderer Code zum Identifizieren der Quelle der automatischen öffentlichen Übertragung.) Suchen nach Informationen bezüglich der Identifizierung oder des Standorts anderer Suchinformationen und Bereitstellen der Ergebnisse.

(Ii) ** Analysieren Sie Informationen mit einem elektronischen Computer und geben Sie die Ergebnisse an. ** ** **

(Iii) Zusätzlich zu den in den beiden vorhergehenden Punkten aufgeführten Punkten handelt es sich um einen Vorgang zur Schaffung neuen Wissens oder neuer Informationen durch Informationsverarbeitung durch einen Computer und zur Bereitstellung des Ergebnisses. Es handelt sich um eine Regierungsverordnung, die zur Verbesserung der Bequemlichkeit des Lebens der Menschen beiträgt. Was ist zu definieren?

2 ** Personen, die sich auf die in den einzelnen Punkten des vorhergehenden Absatzes aufgeführten Handlungen vorbereiten (beschränkt auf diejenigen, die Informationen zur Vorbereitung der Handlungen gemäß den in der Regierungsverordnung festgelegten Standards sammeln, organisieren und bereitstellen), sind die Werke, die der Öffentlichkeit vorgestellt werden. In dem Umfang, der für die Vorbereitung einer geringfügigen Verwendung gemäß den Bestimmungen desselben Absatzes als notwendig erachtet wird, gilt die Vervielfältigung oder öffentliche Übermittlung (im Falle einer automatischen öffentlichen Übermittlung ist die Ermöglichung der Übermittlung enthalten. Im Folgenden dieser Absatz und der folgende Artikel 2) Gleiches gilt für Punkt 2), oder es kann eine Kopie davon verteilt werden. ** Dies gilt jedoch, wenn dies die Interessen des Inhabers des Urheberrechts in Anbetracht der Art und Verwendung des öffentlich zur Verfügung gestellten Werks, der Anzahl der Kopien oder des Vertriebs sowie der Art der Vervielfältigung, öffentlichen Übermittlung oder Verbreitung in unangemessener Weise beeinträchtigen würde. Nicht.

3-2-2. Urteil

Der festgenommene Verdächtige erklärte den Fall, weil er ein Programm zum automatischen Abrufen neuer Buchdaten von der Website der Zentralbibliothek von Okazaki ausführte und einige Funktionen der Website nicht verfügbar machte (25.05.2010).

Kratzethik ① Probleme in Übersee

3-2-3. Bestätigung der Nutzungsbedingungen

Es gibt Dienste, die das Scraping verbieten, um persönliche Informationen zu schützen und Vandalismus zu verhindern.

3-2-3-1. Beispiel 1: Übereinstimmende App-Paare

Beispielsweise verbietet die passende App Pairs das Scrapen und Crawlen in ihren Nutzungsbedingungen ausdrücklich.

Das Unternehmen gestattet die Verwendung von veröffentlichten Inhalten für andere Benutzer oder andere Dritte mit Ausnahme des Benutzers selbst nicht, und der Benutzer verstößt gegen die Rechte der veröffentlichten Inhalte anderer Benutzer. Darf nicht sein. Darüber hinaus darf der Benutzer den veröffentlichten Inhalt nicht automatisch durch Crawlen oder dergleichen sammeln und analysieren. (Nutzungsbedingungen | Paare)

3-2-3-2. Beispiel 2: Twitter

Ebenso verbietet Twitter das Scraping in seinen Nutzungsbedingungen.

Greifen Sie auf andere Weise (automatisch oder auf andere Weise) auf Twitter zu oder suchen Sie es, ohne unsere derzeit verfügbare öffentliche Benutzeroberfläche von Twitter zu durchlaufen (und deren Nutzungsbedingungen einzuhalten). Versuchen Sie, darauf zuzugreifen oder zu suchen. Dies gilt jedoch nicht, wenn ein gesonderter Vertrag mit Twitter dies ausdrücklich zulässt. Das Crawlen von Twitter ist gemäß der Datei robots.txt zulässig. Das Scraping ohne vorherige Zustimmung von Twitter ist jedoch ausdrücklich untersagt. (Regeln | Twitter)

4. WEB-Scraping-Methode

5. Die betrachtete Methode

5-1. Scraping mit Web-Scraping-Software (OctoParse)

Öffnen Sie die angegebene Webseite mit dem integrierten Browser von OctoParse, wählen Sie die Daten aus, die Sie extrahieren möchten, und ein Crawler wird erstellt. Keine Programmierkenntnisse erforderlich, jeder kann es leicht benutzen. Durch Ausführen des Crawlers können verschiedene Daten auf der Website im gewünschten Format ausgegeben werden.

Der Support unterstützt Japanisch und reagiert schnell.

verdienen

Fehler

5-2. Scraping mit Python

verdienen

Fehler

6. Websites, auf die Sie praktisch verweisen möchten

[Einführung in Python] Grundlagen des Schabens mit Beautiful Soup 4 (1/2) Schöne Suppe in 10 Minuten Übungs- / Python-Scraping-Stil im Feld

Verweise

Zusammenfassung der Ergebnisse beim Web-Scraping mit Python [Web Scraping-Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF% E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0) Ist Schaben illegal? Ein Anwalt erklärt innerhalb von 5 Minuten drei rechtliche Fragen und Gegenmaßnahmen. [Erhaltene Version] Gründliche Erklärung für Anfänger, wie man mit Python kratzt![Beispielcode verfügbar]

Recommended Posts

WEB-Scraping-Technologie und Bedenken
Web Scraping
Web Scraping (Prototyp)
Üben des Web-Scrapings mit Python und Selen
Einfaches Web-Scraping mit Python und Ruby
Probieren Sie jetzt Web Scraping aus und erhalten Sie Lotterie-6-Daten
Ich habe versucht, Web-Scraping mit Python und Selen
Web Scraping mit Python + JupyterLab
Web-Scraping-Informationen zu Lachprogrammen und Benachrichtigungen über LINE
Kompromisse beim Web Scraping & Crawlen
Einfaches Web-Scraping mit Scrapy
Webcrawlen, Web-Scraping, Zeichenerfassung und Speichern von Bildern mit Python
Bildersammlung mit Web Scraping
Web Scraping mit Selenium (Python)
Web Scraping mit AWS Lambda
Web Scraping Anfänger mit Python
Web-Scraping-Bibliothek mit Algorithmen Scrapely
Einzeiliges Web-Scraping mit tse
Scraping mit Node, Ruby und Python
Scraping mit Python, Selen und Chromedriver
Scraping, Vorverarbeitung und Schreiben in postgreSQL
Scraping von Alexas Web Rank mit pyQuery
Web Scraping mit Python Erster Schritt
Ich habe versucht, WebScraping mit Python.
Kratzen mit Python und schöner Suppe
Web Scraping für Anfänger in Python (1)
Web Scraping für Wetterwarnbenachrichtigungen.
Schnellste und stärkste Webserver-Architektur
Web Scraping für Anfänger in Python (4) -1
10 Fragen, die vor dem Web-Scraping überprüft werden müssen
Web-Scraping durch Anfänger mit Python (4) -3 GCE VM-Instanzerstellung und Scraping auf VM