HTTP est un protocole conçu sans état Si vous souhaitez avoir un état, utilisez un cookie. Il n'est pas toujours nécessaire d'implémenter l'envoi et la réception de cookies en créant un robot d'exploration. Utilisez l'objet Session de la bibliothèque Request. L'état peut également être exprimé par Referer.
Utilisé pour implémenter la connexion, etc.
SPA, etc. n'incluent pas de contenu en HTML. Dans ce cas, il est nécessaire d'interpréter JavaScript.
Etc. sont disponibles comme outils d'opération automatique.
Google bot etc.
Il y a ces trois caractéristiques, mais vous devez être conscient des points suivants quel que soit le modèle de robot.
--Nombre de connexions simultanées
robots.txt Les balises Meta Robots.txt et robots sont largement utilisées pour demander aux administrateurs de sites Web de ne pas explorer une page particulière.
robots.txt: un fichier texte situé dans le répertoire supérieur du site Web balise meta robots: contient des instructions pour le robot d'exploration.
Vous pouvez obtenir des informations sur le fichier robots.txt à l'aide d'une bibliothèque Python appelée urllib.robotparser.
Un fichier XML permettant aux administrateurs de sites Web de présenter une liste d'URL qu'ils souhaitent que le robot d'exploration explore.
L'analyse en référence au plan de site XML est efficace, car il vous suffit d'analyser les pages à explorer.
Entrez une chaîne de caractères arbitraire dans l'en-tête User-Agent pour y accéder.
En modifiant le traitement des erreurs en fonction du code d'état, il est possible d'effectuer un traitement tel qu'une nouvelle tentative en cas d'erreur réseau (telle que l'impossibilité de se connecter).