Einführung eines Pakets, das problematische Bilder durch tiefes Lernen mithilfe von Bildern sammelt.
Sie können Bilder von Suchmaschinen sammeln, Bilder von SNS veröffentlichen und automatisch Bilder von Webseiten herunterladen.
Es scheint, dass die Funktion für Google aufgrund der Änderung der Spezifikation der Bildsuchmaschine von Google noch nicht verwendet werden kann Der Google Crawler wurde 4 Tage vor der Veröffentlichung dieses Artikels (10.10.2020) repariert. Ich denke, er wird bald verbessert.
Herunterladen von bing, baidu
from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler
bing_crawler = BingImageCrawler(downloader_threads=4,storage={'root_dir': 'C:\\Users\\Desktop\\0\\your_dir'})
bing_crawler.crawl(keyword='cat', filters=None, offset=0, max_num=10)
Geben Sie das Speicherziel des gespeicherten Bildes an Wenn Sie nach rooot_dir ein Zeichen anstelle eines Pfads angeben, wird automatisch eine Datei mit dem angegebenen Zeichen im Arbeitsverzeichnis erstellt und dort gesammelt.
Geben Sie das Suchwort mit dem Schlüssel an
baidu_crawler = BaiduImageCrawler(storage={'root_dir': 'your_image_dir'})
baidu_crawler.crawl(keyword='cat', offset=0, max_num=100,min_size=(200,200), max_size=None)
Wenn max_num als 1000 angegeben ist, ist es DL bis zu ungefähr 800 Das Verhalten, wenn dasselbe Verzeichnis angegeben wird, wird übersprungen, wenn der Dateiname und die Erweiterung behandelt werden.
Es wird heruntergeladen, während auf der Website nach Bildern von einem Ende gesucht wird Müssen nach dem Download sortieren
from icrawler.builtin import GreedyImageCrawler
greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'di'})
greedy_crawler.crawl(domains='https://URL mit dem Bild, das Sie herunterladen möchten.html', max_num=10,min_size=None, max_size=None)
Laden Sie Bilder basierend auf den Flickr-Suchergebnissen herunter Erfordert eine einfache Benutzerregistrierung wie E-Mail und Name (kann nicht mit Google Mail bestätigt werden?)
Kann verwendet werden, indem nach der Anmeldung ein API-Schlüssel angefordert wird
Geben Sie den gemeinnützigen Verein, den Verwendungszweck usw. ein und führen Sie den Code nach der Ausgabe des API-Schlüssels aus
from datetime import date
from icrawler.builtin import FlickrImageCrawler
flickr_crawler = FlickrImageCrawler('Schlüssel hier ausgestellt',
storage={'root_dir': 'image_dir'})
flickr_crawler.crawl(max_num=100, tags='cat,dog',
min_upload_date=date(2019, 5, 1))
Bis vor einiger Zeit gab es ein Problem, dass nur 100 Elemente heruntergeladen werden konnten, aber der Download selbst war möglich. Jetzt kann ich den Download nicht einmal überprüfen
from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler
google_crawler = GoogleImageCrawler(
feeder_threads=1,
parser_threads=1,
downloader_threads=4,
storage={'root_dir': 'er'})
google_crawler.crawl(keyword='cat', offset=0, max_num=10,
min_size=(200,200), max_size=None, file_idx_offset=0)
Referenzseite Welcome to icrawler
Recommended Posts