Présentation d'un package qui collecte des images gênantes par apprentissage en profondeur à l'aide d'images.
Vous pouvez collecter des images à partir de moteurs de recherche, publier des images à partir de SNS et télécharger automatiquement des images à partir de pages Web.
Il semble que la fonction pour google ne puisse pas encore être utilisée en raison du changement de spécification du moteur de recherche d'images de google Le robot d'exploration de Google a été corrigé 4 jours avant la publication de cet article (10/10/2020), donc je pense qu'il sera bientôt amélioré.
Télécharger depuis bing, baidu
from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler
bing_crawler = BingImageCrawler(downloader_threads=4,storage={'root_dir': 'C:\\Users\\Desktop\\0\\your_dir'})
bing_crawler.crawl(keyword='cat', filters=None, offset=0, max_num=10)
Spécifiez la destination d'enregistrement de l'image dans le stockage Si vous spécifiez un caractère au lieu d'un chemin après rooot_dir, un fichier avec le caractère spécifié sera automatiquement créé dans le répertoire de travail et y sera collecté.
Spécifiez le mot de recherche avec la touche
baidu_crawler = BaiduImageCrawler(storage={'root_dir': 'your_image_dir'})
baidu_crawler.crawl(keyword='cat', offset=0, max_num=100,min_size=(200,200), max_size=None)
Lorsque max_num est spécifié comme 1000, ce sera DL jusqu'à environ 800 Le comportement lorsque le même répertoire est spécifié est ignoré lorsque le nom et l'extension du fichier sont couverts.
Il télécharge tout en recherchant des images sur le site Web à une extrémité Besoin de trier après le téléchargement
from icrawler.builtin import GreedyImageCrawler
greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'di'})
greedy_crawler.crawl(domains='https://URL avec l'image que vous souhaitez télécharger.html', max_num=10,min_size=None, max_size=None)
Télécharger des images basées sur les résultats de recherche Flickr Nécessite une simple inscription d'utilisateur telle que l'adresse e-mail et le nom (vous ne pouvez pas confirmer avec google mail?)
Peut être utilisé en demandant une clé API après la connexion
Entrez le but non lucratif, le but de l'utilisation, etc. et exécutez le code après avoir émis la clé API
from datetime import date
from icrawler.builtin import FlickrImageCrawler
flickr_crawler = FlickrImageCrawler('Clé émise ici',
storage={'root_dir': 'image_dir'})
flickr_crawler.crawl(max_num=100, tags='cat,dog',
min_upload_date=date(2019, 5, 1))
Jusqu'à il y a quelque temps, le problème était que seuls 100 éléments pouvaient être téléchargés, mais le téléchargement lui-même était possible. Maintenant je ne peux même pas vérifier le téléchargement
from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler
google_crawler = GoogleImageCrawler(
feeder_threads=1,
parser_threads=1,
downloader_threads=4,
storage={'root_dir': 'er'})
google_crawler.crawl(keyword='cat', offset=0, max_num=10,
min_size=(200,200), max_size=None, file_idx_offset=0)
Site de référence Welcome to icrawler
Recommended Posts