Einführung eines Pakets, das problematische Bilder durch tiefes Lernen mithilfe von Bildern sammelt.

Sie können Bilder von Suchmaschinen sammeln, Bilder von SNS veröffentlichen und automatisch Bilder von Webseiten herunterladen.

Es scheint, dass die Funktion für Google aufgrund der Änderung der Spezifikation der Bildsuchmaschine von Google noch nicht verwendet werden kann Der Google Crawler wurde 4 Tage vor der Veröffentlichung dieses Artikels (10.10.2020) repariert. Ich denke, er wird bald verbessert.

Von der Suchmaschine herunterladen

Herunterladen von bing, baidu

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler


bing_crawler = BingImageCrawler(downloader_threads=4,storage={'root_dir': 'C:\\Users\\Desktop\\0\\your_dir'})
bing_crawler.crawl(keyword='cat', filters=None, offset=0, max_num=10)

Geben Sie das Speicherziel des gespeicherten Bildes an Wenn Sie nach rooot_dir ein Zeichen anstelle eines Pfads angeben, wird automatisch eine Datei mit dem angegebenen Zeichen im Arbeitsverzeichnis erstellt und dort gesammelt.

Geben Sie das Suchwort mit dem Schlüssel an

baidu_crawler = BaiduImageCrawler(storage={'root_dir': 'your_image_dir'})
baidu_crawler.crawl(keyword='cat', offset=0, max_num=100,min_size=(200,200), max_size=None)

Wenn max_num als 1000 angegeben ist, ist es DL bis zu ungefähr 800 Das Verhalten, wenn dasselbe Verzeichnis angegeben wird, wird übersprungen, wenn der Dateiname und die Erweiterung behandelt werden.

Von der Website herunterladen

Es wird heruntergeladen, während auf der Website nach Bildern von einem Ende gesucht wird Müssen nach dem Download sortieren

from icrawler.builtin import GreedyImageCrawler

greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'di'})
greedy_crawler.crawl(domains='https://URL mit dem Bild, das Sie herunterladen möchten.html', max_num=10,min_size=None, max_size=None)

Download von SNS (Flickr)

Laden Sie Bilder basierend auf den Flickr-Suchergebnissen herunter Erfordert eine einfache Benutzerregistrierung wie E-Mail und Name (kann nicht mit Google Mail bestätigt werden?)

Kann verwendet werden, indem nach der Anmeldung ein API-Schlüssel angefordert wird

API-Anfrage

Geben Sie den gemeinnützigen Verein, den Verwendungszweck usw. ein und führen Sie den Code nach der Ausgabe des API-Schlüssels aus

from datetime import date
from icrawler.builtin import FlickrImageCrawler

flickr_crawler = FlickrImageCrawler('Schlüssel hier ausgestellt',
                                    storage={'root_dir': 'image_dir'})
flickr_crawler.crawl(max_num=100, tags='cat,dog',
                     min_upload_date=date(2019, 5, 1))

Ich habe den Vorgang nicht bestätigt, aber im Fall von Google

Bis vor einiger Zeit gab es ein Problem, dass nur 100 Elemente heruntergeladen werden konnten, aber der Download selbst war möglich. Jetzt kann ich den Download nicht einmal überprüfen

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler

google_crawler = GoogleImageCrawler(
    feeder_threads=1,
    parser_threads=1,
    downloader_threads=4,
    storage={'root_dir': 'er'})

google_crawler.crawl(keyword='cat', offset=0, max_num=10,
                     min_size=(200,200), max_size=None, file_idx_offset=0)

das ist alles

Referenzseite Welcome to icrawler

[PYTHON] Einführung des automatischen Bildersammlungspakets "icrawler" (0.6.3), das beim maschinellen Lernen verwendet werden kann

Von der Suchmaschine herunterladen

Von der Website herunterladen

Download von SNS (Flickr)

Ich habe den Vorgang nicht bestätigt, aber im Fall von Google

das ist alles