Qu'est-ce que Web Crawler? Une base de données qui collecte automatiquement des informations telles que des textes, des images et des vidéos publiées sur Internet. C'est un programme dans lequel stocker. Divers robots d'exploration Web jouent un rôle clé dans le boom du Big Data, ce qui permet aux utilisateurs de récupérer facilement des données.

Parmi les différents robots d'indexation Web, il existe de nombreux frameworks de robots d'indexation open source. Le robot d'exploration Web open source permet aux utilisateurs de programmer en fonction du code source ou des frameworks, fournit des ressources d'assistance au grattage et simplifie l'extraction des données. Dans cet article, nous présenterons 10 robots d'exploration Web open source recommandés.

Scrapy

** Langage: Python **

Scrapy est le framework de robot d'exploration Web open source le plus populaire de Python. Il vous aide à extraire efficacement les données de votre site Web, à les traiter selon vos besoins et à les enregistrer dans votre format préféré (JSON, XML, CSV). Construit sur un cadre de réseau asynchrone tordu, il peut accepter les demandes et les traiter plus rapidement. Vous pouvez créer des projets Scrapy pour créer efficacement et de manière flexible un scraping d'exploration à grande échelle.

Fonctionnalité:

Rapide et puissant --Il y a Documentation détaillée
Vous pouvez ajouter de nouvelles fonctionnalités sans toucher le noyau
Communauté et ressources abondantes
Peut être exécuté dans un environnement cloud

Heritrix

** Langue: JAVA **

Heritrix est un robot d'exploration Web open source Java hautement extensible conçu pour les archives Web. Nous respectons beaucoup les directives d'exclusion robot.txt et les balises metarobot et collectons les données à un rythme adaptatif mesuré qui ne perturbe pas l'activité normale du site Web. Il fournit une interface utilisateur Web accessible avec un navigateur Web pour le contrôle de l'opérateur et la surveillance de l'exploration.

Fonctionnalité: --Module compatible avec une prise remplaçable

Interface Web --Respecter les balises robot.txt et metarobot --Excellente extensibilité

Web-Harvest

** Langue: JAVA **

Web-Harvest est un robot d'exploration Web open source écrit en Java. Vous pouvez collecter des données à partir de la page spécifiée. Pour ce faire, nous exploitons principalement des technologies et des techniques telles que XSLT, XQuery et des expressions canoniques pour manipuler ou filtrer le contenu des sites Web HTML / XML. Il peut être facilement complété en personnalisant la bibliothèque Java pour améliorer les capacités d'extraction.

Fonctionnalité:

Puissant processeur de manipulation de texte et XML pour le traitement des données et le flux de contrôle
Contexte variable pour stocker et utiliser des variables
Prend en charge de vrais langages de script et peut être facilement intégré dans le robot d'exploration Web

MechanicalSoup

** Langage: Python **

MechanicalSoup est une bibliothèque Python pour automatiser les interactions avec les sites Web. Mechanical Soup est un géant de Python Requests (pour les sessions HTTP) et BeautifulSoup (Pour la navigation dans les documents) fournit une API similaire construite avec. Vous pouvez automatiquement enregistrer et soumettre un cookie, suivre la redirection, suivre le lien et soumettre le formulaire. La soupe mécanique est très utile lorsque vous souhaitez simuler le comportement humain plutôt que de simplement gratter des données.

Fonctionnalité:

Capacité à simuler le comportement humain
Vous pouvez gratter un site Web assez simple à grande vitesse
Prend en charge les sélecteurs CSS et XPath

Apify SDK

** Langue: JavaScript **

Le SDK Apify (https://sdk.apify.com/) est l'un des meilleurs robots d'exploration Web créés avec JavaScript. Une bibliothèque de grattage évolutive permet le développement de travaux d'extraction de données et d'automatisation Web dans Chrome sans tête et Puppeteer. Des outils uniques et puissants tels que RequestQueue et AutoscaledPool vous permettent de démarrer avec plusieurs URL et de suivre de manière récursive des liens vers d'autres pages, chacune effectuant une tâche de grattage à la capacité maximale de votre système.

Fonctionnalité:

Grattage à grande échelle et haute performance --Il existe un pool de proxies pour éviter la détection
Prend en charge les plugins Node.js tels que Cheerio et Puppeteer

Apache Nutch

** Langue: JAVA **

Apache Nutch est un framework de robot d'exploration Web open source écrit en Java. Avec une architecture modulaire avancée, les développeurs peuvent créer des plugins pour l'analyse du type de média, la récupération de données, les requêtes et le clustering. Modulaire enfichable, Nutch propose également une interface extensible pour des implémentations personnalisées.

Fonctionnalité:

Hautement extensible --Suivez la règle txt --Une communauté dynamique et un développement actif
Analyse, protocole, stockage et indexation enfichables

Jaunt

** Langue: JAVA **

Jaunt est basé sur JAVA et est conçu pour le scraping Web, l'automatisation Web et les requêtes JSON. Il fournit un navigateur sans tête rapide et ultra-léger qui fournit des capacités de scraping Web, un accès au DOM et le contrôle de chaque requête / réponse HTTP, mais ne prend pas en charge JavaScript.

Fonctionnalité:

Traiter les demandes / réponses HTTP individuelles --Facile à se connecter avec l'API REST
Prend en charge HTTP, HTTPS et l'authentification de base
Prise en charge des requêtes RegEx dans DOM et JSON

Node-crawler

** Langue: JavaScript **

Node-crawler est un robot de production puissant et populaire basé sur Node.js. Entièrement écrit en Node.js et prenant en charge les E / S non bloquantes, il est très utile pour le mécanisme de manipulation du pipeline du robot. En même temps, il prend en charge la sélection rapide du DOM (pas besoin d'écrire des expressions régulières) et améliore l'efficacité du développement des robots d'exploration.

Fonctionnalité:

Contrôle des taux
La demande d'URL a la priorité
Taille du pool configurable et réessayer
Insertion automatique de jQuery avec DOM côté serveur et Cheerio (par défaut) ou JSDOM

PySpider

** Langage: Python **

PySpider est un puissant framework de robot d'exploration Web écrit en Python. Avec une interface utilisateur Web facile à utiliser et une architecture distribuée avec des composants tels que le planificateur, l'extracteur et le processeur, vous pouvez désormais facilement suivre plusieurs analyses. Prend en charge diverses bases de données pour le stockage de données, telles que MongoDB et MySQL.

Fonctionnalité:

Interface conviviale
Files d'attente de messages RabbitMQ, Beanstalk, Redis et Kombu --Architecture distribuée

StormCrawler

** Langue: JAVA **

StormCrawler est un SDK open source pour créer un robot d'exploration Web distribué à l'aide d'Apache Storm. Ce projet est sous licence Apache v2 et consiste principalement en une collection de ressources réutilisables et de composants écrits en Java. Il est idéal pour une utilisation lorsque l'URL à récupérer et à analyser est fournie sous forme de flux, mais c'est également une bonne solution pour les grandes analyses récursives, en particulier lorsqu'une faible latence est requise. ..

Fonctionnalité:

Hautement extensible et peut être utilisé pour les analyses récursives à grande échelle
Les bibliothèques supplémentaires peuvent être facilement étendues
Excellente gestion des threads pour réduire la latence de l'exploration

Résumé

Le robot d'exploration Web open source est très puissant et extensible, mais limité aux développeurs. De nombreux outils de grattage comme Octoparse Oui, vous pouvez facilement extraire les données sans écrire de code. Si vous n'êtes pas familiarisé avec la programmation, ces outils sont plus adaptés et plus faciles à gratter.

Article original: https://www.octoparse.jp/blog/10-best-open-source-web-crawler

[PYTHON] 10 Crawlers Web Open Source pour 2020

Résumé