Python Crawling & Scraping Chapitre 4 Résumé

introduction

Résumé d'apprentissage du «Guide de développement pratique pour la collecte et l'analyse de données Python Crawling & Scraping [Augmented Revised Edition]» Ce chapitre 4 s'intitulait «Méthodes d'utilisation pratique» et se concentrait sur les points à noter lors de la création de robots d'exploration.

4.1 Caractéristiques des chenilles

4.1.1 Crawler avec état

4.1.2 Crawler interprétant JavaScript

JavaScript pour explorer les sites créés en tant que SPA (application à page unique) Besoin d'être interprété. Pour ce faire, utilisez des outils tels que Selenium et Puppeteer pour faire fonctionner automatiquement le navigateur. De plus, les navigateurs tels que Chrome et FireFox ont un mode sans tête qui peut être exécuté sans interface graphique, ce qui peut être utile pour créer un robot d'exploration.

4.1.3 Crawler pour un nombre non spécifié de sites Web

Quelque chose comme Googlebot. C'est plus difficile qu'un robot d'exploration qui cible un site spécifique. Un mécanisme qui ne dépend pas de la structure de la page est requis.

4.2 Précautions concernant l'utilisation des données collectées

4.2.1 Droits d'auteur

Droits d'auteur à prendre en compte lors de la création d'un robot → droits de reproduction, droits d'adaptation, droits de transmission publique «La révision de la loi sur le droit d'auteur en 2009 a rendu possible la duplication à des fins d'analyse et de duplication d'informations, d'adaptation et de transmission publique automatique dans le but de fournir des services de moteur de recherche sans l'autorisation du titulaire du droit d'auteur.

4.2.2 Conditions d'utilisation et informations personnelles

Une histoire sur l'observation des termes du site. Les informations personnelles seront gérées conformément à la loi sur la protection des informations personnelles.

4.3 Précautions concernant la charge à la destination de l'exploration

Comment ne pas charger la destination de l'exploration. [Affaire de la bibliothèque centrale de la ville d'Okazaki - Wikipedia](https://ja.wikipedia.org/wiki/Affaire de la bibliothèque centrale de la ville d'Okazaki) Qu'est-il arrivé comme ça

4.3.1 Nombre de connexions simultanées et intervalle d'exploration

--Nombre de connexions simultanées

4.3.2 Instructions au robot d'exploration par robots.txt

En ce qui concerne Netkeiba qui gratte toujours, il ne semble y avoir aucune instruction particulière dans le fichier robots.txt ou la balise meta

4.3.3 Plan du site XML

Fichier XML qui indique au robot d'exploration l'URL que vous souhaitez qu'il explore Plus efficace que de suivre des liens et d'explorer Décrire dans la directive Sitemap de robots.txt

4.3.4 Clarification des coordonnées

Les informations de contact telles que l'adresse e-mail et l'URL peuvent être décrites dans l'en-tête User-Agent de la demande envoyée par le robot d'exploration.

4.3.5 Code d'état et gestion des erreurs

La gestion des erreurs est importante afin de ne pas mettre une charge supplémentaire sur la destination de l'exploration Si vous réessayez lorsqu'une erreur se produit, prenez des mesures telles que l'augmentation exponentielle de l'intervalle de relance. Il existe de nombreuses descriptions standard pour la gestion des erreurs, mais elles peuvent être décrites de manière concise en utilisant une bibliothèque appelée ténacité.

4.4 Conçu pour une exécution répétée

4.4.1 Obtenir uniquement les données mises à jour

4.4.2 Détecter les changements dans la destination de l'exploration

--Valider avec une expression régulière --Valider avec le schéma JSON

Si un changement peut être détecté de cette manière, le robot d'exploration sera arrêté par notification par e-mail.

4.5 Résumé

réduction

en conclusion

Je n'étais pas motivé et l'intervalle d'affichage était vacant, mais pour le moment, c'était un article qui confirmait la survie (?)

Recommended Posts

Python Crawling & Scraping Chapitre 4 Résumé
Résumé Python
Résumé Python
[Scraping] Scraping Python
Mémo de raclage Python
Scraping Python get_ranker_categories
Grattage avec Python
Grattage avec Python
Résumé du didacticiel Python
Python racle eBay
Grattage Python get_title
Python: grattage partie 1
résumé relatif à python
Scraping à l'aide de Python
Résumé des bases de Python
Grattage en Python (préparation)
Essayez de gratter avec Python.
Résumé du didacticiel Python Django
UnicodeEncodeError: 'cp932' pendant le scraping Python
Principes de base du grattage Python
Grattage avec Python + PhantomJS
Résumé sur Python3 + OpenCV3
Résumé des arguments de la fonction Python
Résumé des opérations d'annuaire Python
Résumé du cadre Python AI
Résumé relatif au traitement itératif Python
Résumé des arguments Python
Grattage avec du sélénium [Python]
Scraping avec Python + PyQuery
[Python] Chapitre 01-01 À propos de Python (First Python)
Scraping RSS avec Python
Scraping à l'aide de Python 3.5 async / await
J'ai essayé de gratter avec Python
Web scraping avec python + JupyterLab
Programmation Python Machine Learning Chapitre 2 Problèmes de classification - Résumé de la formation à l'algorithme d'apprentissage automatique
résumé lié à l'opération de fichier python
Grattage avec Selenium + Python Partie 1
Résumé des opérations de liste Python3
Python pour l'analyse des données Chapitre 4
[Python] Scraping dans AWS Lambda
python super débutant essaie de gratter
Nouveautés de Python 3.10 (Résumé)
Grattage avec chromedriver en python
Grattage festif avec Python, scrapy
Entrée standard / résumé / python, ruby
Grattage avec du sélénium en Python
Résumé de la portée des membres de la classe Python
Résumé de l'article sur la programmation Web Python
100 Language Processing Knock Chapitre 2 (Python)
Compromis dans le scraping et l'exploration Web
Grattage avec Tor en Python
Web scraping avec Selenium (Python)
Résumé récent de l'étude des pandas python
Mémo récapitulatif des types de données Python
Grattage avec Selenium + Python Partie 2
[Python + Selenium] Conseils pour le grattage
Web scraping débutant avec python