[PYTHON] Technologie de grattage WEB et préoccupations

1. Grattage WEB

Dans la tendance récente des mégadonnées, la quantité de données à collecter est nécessaire.

Le grattage WEB peut être adopté comme l'une des technologies.

Dans cet article, je voudrais résumer les méthodes de grattage WEB et les précautions concernant leur utilisation.

2. Qu'est-ce que le grattage WEB?

Le web scraping est une technologie logicielle informatique qui extrait des informations de sites Web. Aussi connu sous le nom de robot d'exploration [1] ou d'araignée Web [2]. Ces logiciels acquièrent généralement du contenu WWW en implémentant un HTTP de bas niveau ou en intégrant un navigateur Web. (De Wikipedia)

3. Défis du scraping WEB

3-1. Blocage IP 3-2. Conformité à l'éthique de l'entreprise et conformité

3-2. Conformité à l'éthique de l'entreprise et conformité

3-2-1. Droit d'auteur

Dès la conclusion, s'il n'y a pas de description correspondante dans la charge sur le serveur en raison du grattage, les conditions d'utilisation du site concerné, ** si le but est d'analyser les informations **, le droit d'auteur est exceptionnel. Il semble que l’opinion générale soit qu’il n’y ait aucun problème à enregistrer ou à adapter les informations d’autres sociétés obtenues par grattage sur un support d’enregistrement sans obtenir le consentement de la personne. (Au 23/02/2020)

Article 47-5 de la loi sur le droit d'auteur (Traitement de l'information par ordinateur électronique et utilisation mineure accompagnant la fourniture du résultat, etc.)

Article 47-5 Contribuer à la promotion de l'utilisation des œuvres en créant de nouvelles connaissances ou informations grâce au traitement de l'information à l'aide d'ordinateurs électroniques. Les personnes qui accomplissent les actes énumérés dans les éléments suivants (y compris ceux qui accomplissent une partie de l'acte et se limitent à ceux qui accomplissent l'acte conformément aux normes spécifiées par l'ordonnance gouvernementale) sont fournies ou présentées au public (permettre la transmission). (Il en va de même ci-après dans le présent article) (ci-après dénommés "travaux de présentation fournis au public" dans le présent article et dans l'article suivant, paragraphe 2, point 2) (travaux publiés ou habilitation à la transmission) (Limité aux œuvres réalisées) peuvent être utilisées (les œuvres présentées au public) dans la mesure jugée nécessaire aux fins des actes énumérés dans chaque élément, quelle que soit la méthode utilisée en relation avec les actes. Parmi ceux-ci, la proportion de la pièce utilisée pour l'utilisation, la quantité de la pièce utilisée pour l'utilisation, la précision de l'affichage lorsque la pièce est utilisée et d'autres facteurs sont limités à ceux qui sont mineurs à la lumière d'autres facteurs. «Utilisation mineure») peut être effectuée. Cependant, si la fourniture ou la présentation de l'œuvre offerte au public au public enfreint le droit d'auteur (si la fourniture ou la présentation au public faite à l'étranger est faite dans le pays) Si l'utilisation mineure est faite en sachant qu'il doit s'agir d'une violation du droit d'auteur), les intérêts du titulaire du droit d'auteur seront indûment lésés à la lumière du type et de l'utilisation de l'œuvre fournie publiquement et du mode de l'utilisation mineure. Si tel est le cas, cela ne s'applique pas.

(1) Le titre ou le nom de l'auteur de l'œuvre dans laquelle les informations obtenues par la recherche à l'aide d'un ordinateur électronique (ci-après dénommées «informations de recherche» dans ce numéro) sont enregistrées, et le code d'identification de l'expéditeur lié aux informations de recherche peut être transmis. (Un caractère, un numéro, un symbole ou un autre code pour identifier la source de la transmission publique automatique.) Rechercher des informations concernant l'identification ou l'emplacement d'autres informations de recherche et fournir les résultats.

(Ii) ** Analyser les informations avec un ordinateur électronique et fournir les résultats. ** **

(Iii) En plus des éléments énumérés dans les deux éléments précédents, il s'agit d'un acte de création de nouvelles connaissances ou d'informations par le traitement de l'information par un ordinateur et de fournir le résultat, et c'est une ordonnance gouvernementale qui contribue à l'amélioration de la commodité de la vie des gens. Que définir

2 ** Les personnes qui se préparent aux actes énumérés dans chaque point du paragraphe précédent (limité à ceux qui collectent, organisent et fournissent des informations pour la préparation des actes conformément aux normes spécifiées par l'ordonnance gouvernementale) sont des œuvres mises à disposition du public. En ce qui concerne, dans la mesure jugée nécessaire pour la préparation à une utilisation mineure conformément aux dispositions du même paragraphe, la duplication ou la transmission publique (dans le cas d'une transmission publique automatique, la possibilité de transmission est incluse. Ci-après, le présent paragraphe et l'article 2 suivant Il en va de même pour le point 2), ou un exemplaire de celui-ci peut être distribué. ** Cependant, cela s'applique si cela porterait indûment préjudice aux intérêts du titulaire du droit d'auteur compte tenu du type et de l'utilisation de l'œuvre mise à disposition du public, du nombre d'exemplaires ou de distribution, et du mode de reproduction, de transmission publique ou de distribution. Ne pas.

3-2-2. Jugement

Le suspect qui a été arrêté a expliqué l'affaire parce qu'il dirigeait un programme visant à acquérir automatiquement de nouvelles données de livres sur le site Web de la bibliothèque centrale d'Okazaki et a rendu certaines fonctions du site indisponibles (2010/5/25)

Scraping éthique ① Cas de problèmes à l'étranger

3-2-3. Confirmation des conditions d'utilisation

Il existe des services qui interdisent le grattage afin de protéger les informations personnelles et d'éviter le vandalisme.

3-2-3-1. Exemple 1: mise en correspondance de paires d'applications

Par exemple, les paires d'applications correspondantes interdisent explicitement le grattage et l'exploration dans ses conditions d'utilisation.

La Société n'autorise pas l'utilisation du contenu publié à d'autres utilisateurs ou à d'autres tiers à l'exception de l'utilisateur lui-même, et l'utilisateur agit en enfreignant les droits du contenu publié d'autres utilisateurs. Ne doit pas être. En outre, l'utilisateur ne doit pas collecter et analyser automatiquement le contenu publié par exploration ou autre. (Conditions d'utilisation | Paires)

3-2-3-2. Exemple 2: Twitter

De même, Twitter interdit le grattage dans ses conditions d'utilisation.

Accédez ou recherchez Twitter par tout autre moyen (automatiquement ou non) sans passer par notre interface publique actuellement disponible fournie par Twitter (et en respectant ses conditions d'utilisation). Faites ou essayez d'accéder ou de rechercher. Cependant, cela ne s'applique pas si un contrat séparé avec Twitter le permet spécifiquement. L'exploration de Twitter est autorisée comme l'exige le fichier robots.txt. Cependant, le grattage sans le consentement préalable de Twitter est expressément interdit. (Règles | Twitter)

4. Méthode de grattage WEB

5. La méthode considérée

5-1. Scraping à l'aide d'un logiciel de web scraping (OctoParse)

Ouvrez la page Web spécifiée avec le navigateur intégré de OctoParse, sélectionnez les données que vous souhaitez extraire et un robot sera créé. Aucune connaissance en programmation requise, tout le monde peut l'utiliser facilement. Lorsque vous exécutez le robot d'exploration, vous pouvez générer diverses données sur le site Web au format souhaité.

Quant au support, il prend en charge le japonais et répond rapidement.

mérite

Démérite

5-2. Scraping à l'aide de Python

mérite

Démérite

6. Sites auxquels vous souhaitez vous référer pratiquement

[Introduction à Python] Principes de base du grattage avec Beautiful Soup 4 (1/2) Belle soupe en 10 minutes Pratique / Style de grattage Python sur le terrain

Les références

Résumé des résultats lors du scraping Web avec Python [Web Scraping-Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF% E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0) Le grattage est-il illégal? Un avocat explique trois problèmes juridiques et contre-mesures en 5 minutes [Version préservée] Explication approfondie pour les débutants sur la façon de gratter avec Python![Exemple de code disponible]

Recommended Posts

Technologie de grattage WEB et préoccupations
raclage Web
grattage Web (prototype)
Pratiquer le web scraping avec Python et Selenium
Scraping Web facile avec Python et Ruby
Essayez le Web scraping maintenant et obtenez des données de loterie 6
J'ai essayé le web scraping en utilisant python et sélénium
Web scraping avec python + JupyterLab
Informations de raclage Web sur les programmes de rire et notification en ligne
Compromis dans le scraping et l'exploration Web
Grattage Web facile avec Scrapy
Exploration Web, scraping Web, acquisition de caractères et sauvegarde d'image avec python
Collection d'images avec scraping Web
Web scraping avec Selenium (Python)
Web scraping à l'aide d'AWS lambda
Web scraping débutant avec python
Bibliothèque de scraping Web utilisant des algorithmes Scrapely
Grattage de bande sur une seule ligne avec du tsé
Scraping avec Node, Ruby et Python
Grattage WEB avec BeautifulSoup4 (page en couches)
Grattage avec Python, Selenium et Chromedriver
Scraping, prétraitement et écriture dans postgreSQL
Gratter le classement Web d'Alexa avec pyQuery
Web scraping avec Python Première étape
J'ai essayé webScraping avec python.
Grattage avec Python et belle soupe
Web scraping pour les débutants en Python (1)
Grattage Web pour les notifications d'avertissement météo.
Architecture de serveur Web la plus rapide et la plus solide
Web scraping pour les débutants en Python (4) -1
10 questions à vérifier avant le web scraping
Web scraping par les débutants avec Python (4) -3 Création d'instances de VM GCE et scraping sur VM