[PYTHON] Einführung des automatischen Bildersammlungspakets "icrawler" (0.6.3), das beim maschinellen Lernen verwendet werden kann

Einführung eines Pakets, das problematische Bilder durch tiefes Lernen mithilfe von Bildern sammelt.

Sie können Bilder von Suchmaschinen sammeln, Bilder von SNS veröffentlichen und automatisch Bilder von Webseiten herunterladen.

Es scheint, dass die Funktion für Google aufgrund der Änderung der Spezifikation der Bildsuchmaschine von Google noch nicht verwendet werden kann Der Google Crawler wurde 4 Tage vor der Veröffentlichung dieses Artikels (10.10.2020) repariert. Ich denke, er wird bald verbessert.

Von der Suchmaschine herunterladen

Herunterladen von bing, baidu

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler


bing_crawler = BingImageCrawler(downloader_threads=4,storage={'root_dir': 'C:\\Users\\Desktop\\0\\your_dir'})
bing_crawler.crawl(keyword='cat', filters=None, offset=0, max_num=10)

Geben Sie das Speicherziel des gespeicherten Bildes an Wenn Sie nach rooot_dir ein Zeichen anstelle eines Pfads angeben, wird automatisch eine Datei mit dem angegebenen Zeichen im Arbeitsverzeichnis erstellt und dort gesammelt.

Geben Sie das Suchwort mit dem Schlüssel an

baidu_crawler = BaiduImageCrawler(storage={'root_dir': 'your_image_dir'})
baidu_crawler.crawl(keyword='cat', offset=0, max_num=100,min_size=(200,200), max_size=None)

Wenn max_num als 1000 angegeben ist, ist es DL bis zu ungefähr 800 Das Verhalten, wenn dasselbe Verzeichnis angegeben wird, wird übersprungen, wenn der Dateiname und die Erweiterung behandelt werden.

Von der Website herunterladen

Es wird heruntergeladen, während auf der Website nach Bildern von einem Ende gesucht wird Müssen nach dem Download sortieren

from icrawler.builtin import GreedyImageCrawler

greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'di'})
greedy_crawler.crawl(domains='https://URL mit dem Bild, das Sie herunterladen möchten.html', max_num=10,min_size=None, max_size=None)

Download von SNS (Flickr)

Laden Sie Bilder basierend auf den Flickr-Suchergebnissen herunter Erfordert eine einfache Benutzerregistrierung wie E-Mail und Name (kann nicht mit Google Mail bestätigt werden?)

Kann verwendet werden, indem nach der Anmeldung ein API-Schlüssel angefordert wird

API-Anfrage

Geben Sie den gemeinnützigen Verein, den Verwendungszweck usw. ein und führen Sie den Code nach der Ausgabe des API-Schlüssels aus

image.png

from datetime import date
from icrawler.builtin import FlickrImageCrawler

flickr_crawler = FlickrImageCrawler('Schlüssel hier ausgestellt',
                                    storage={'root_dir': 'image_dir'})
flickr_crawler.crawl(max_num=100, tags='cat,dog',
                     min_upload_date=date(2019, 5, 1))

Ich habe den Vorgang nicht bestätigt, aber im Fall von Google

Bis vor einiger Zeit gab es ein Problem, dass nur 100 Elemente heruntergeladen werden konnten, aber der Download selbst war möglich. Jetzt kann ich den Download nicht einmal überprüfen

from icrawler.builtin import BaiduImageCrawler, BingImageCrawler, GoogleImageCrawler

google_crawler = GoogleImageCrawler(
    feeder_threads=1,
    parser_threads=1,
    downloader_threads=4,
    storage={'root_dir': 'er'})

google_crawler.crawl(keyword='cat', offset=0, max_num=10,
                     min_size=(200,200), max_size=None, file_idx_offset=0)

das ist alles

Referenzseite Welcome to icrawler

Recommended Posts

Einführung des automatischen Bildersammlungspakets "icrawler" (0.6.3), das beim maschinellen Lernen verwendet werden kann
ANTs Bildregistrierung, die in 5 Minuten verwendet werden kann
Übersicht und nützliche Funktionen von Scikit-Learn, die auch für Deep Learning verwendet werden können
[Python] Einführung in das WEB-Scraping | Zusammenfassung der Methoden, die mit dem Webdriver verwendet werden können
Einfaches Auffüllen von Daten, die in der Verarbeitung natürlicher Sprache verwendet werden können
[Maschinelles Lernen] Liste der häufig verwendeten Pakete
[Python3] Code, der verwendet werden kann, wenn Sie die Erweiterung eines Bildes sofort ändern möchten
Persönliche Notizen zu Pandas-bezogenen Vorgängen, die in der Praxis verwendet werden können
Einfache Programminstallation und automatische Programmaktualisierung, die in jeder Sprache verwendet werden kann
Kostenlose Version von DataRobot! ?? Einführung in "PyCaret", eine Bibliothek, die maschinelles Lernen automatisiert
Zusammenfassung der Scikit-Learn-Datenquellen, die beim Schreiben von Analyseartikeln verwendet werden können
Kann maschinelles Lernen parallele Vierecke vorhersagen? (1) Kann es extern eingefügt werden?
Dateitypen, die mit Go verwendet werden können
Funktionen, die in der for-Anweisung verwendet werden können
Python & Machine Learning Study Memo Introduction: Einführung in die Bibliothek
Vollständige Offenlegung der beim maschinellen Lernen verwendeten Methoden
Liste der Links, die Anfänger des maschinellen Lernens lernen
Zusammenfassung der beim maschinellen Lernen verwendeten Bewertungsfunktionen
[Übersetzung] scikit-learn 0.18 Einführung in maschinelles Lernen durch Tutorial scikit-learn
Zusammenfassung der statistischen Datenanalysemethoden mit Python, die im Geschäftsleben verwendet werden können
Bildersammlung Python-Skript zum Erstellen von Datensätzen für maschinelles Lernen
Grundlegende Algorithmen, die bei Wettkampfprofis eingesetzt werden können
Informationen zur Datenvorverarbeitung von Systemen, die maschinelles Lernen verwenden
Hinweise zu Python-Kenntnissen, die mit AtCoder verwendet werden können
[Django] Über Benutzer, die für Vorlagen verwendet werden können
Deep Learning Kurs, der vor Ort zerquetscht werden kann
Kann mit AtCoder verwendet werden! Eine Sammlung von Techniken zum Zeichnen von Kurzcode in Python!
[Atcoder] [C ++] Ich habe ein Testautomatisierungstool erstellt, das während des Wettbewerbs verwendet werden kann