[PYTHON] Scrapy-Redis est recommandé pour l'exploration d'un grand nombre de domaines
Scrapy-Redis
https://github.com/rolando/scrapy-redis
pip install scrapy_redis
Et remplacez simplement les paramètres de base.
Avantages de l'introduction
- Vous pouvez utiliser redis pour le planificateur de scrapy, la file d'attente start_urls et le pipeline (paramètres étendus séparés)
--Facile pour la coopération externe et le multiplexage
- Puisque la file d'attente du planificateur est persistante, elle peut être redémarrée même si le robot d'exploration est arrêté au milieu.
- Vous pouvez démarrer plusieurs spiders identiques dans plusieurs processus ou plusieurs serveurs et analyser en parallèle en même temps.
- En définissant la sortie sur redis dans le pipeline, le traitement suivant peut être traité par un autre processus de travail.
- Écriture en bloc dans la base de données
--Parler
--Envoyer au flux d'apprentissage automatique
- Les start_urls de Spider peuvent également être redis, vous pouvez donc le pousser d'un service externe vers la file d'attente de l'URL de démarrage.
Selon le réglage, Scrapy peut parcourir environ 1000 pages / minute avec 1 cœur (100% du processeur peut être consommé).
En utilisant Scrapy-Redis, vous pouvez analyser le nombre de cœurs * 1000 pages / minute.