Lorsque je lisais l'article en diagonale à Papers with Code, j'ai été initié à la technique d'imagerie couleur d'images en noir et blanc, que je voulais apprendre une fois. J'ai traduit le plan, j'espère donc que vous le trouverez utile.
Instance-aware Image Colorization https://paperswithcode.com/paper/instance-aware-image-colorization
Une technologie d'imagerie couleur pour les images en noir et blanc utilisant la division d'objets a récemment été publiée sur arxiv.
La conversion d'une image en noir et blanc en une image couleur plausible est un thème de recherche brûlant. Cependant, la prédiction de deux canaux manquants à partir d'une image en noir et blanc pose un problème intrinsèquement difficile. De plus, comme il existe plusieurs options pour colorer les objets, le processus de coloration peut avoir plusieurs interprétations (par exemple, blanc, noir, rouge pour les véhicules, etc.).
La technologie classiquement rapportée a le problème qu'elle n'est pas bien colorée lorsqu'il y a de nombreux objets sur un fond encombré (voir la figure ci-dessous).
Dans cet article, afin de résoudre les problèmes ci-dessus, nous avons réalisé un nouveau cadre d'apprentissage en profondeur et un code couleur conscient de la division des zones. En particulier, il a été constaté que ** séparer clairement l'objet et l'arrière-plan ** est efficace pour améliorer les performances de colorisation.
Le cadre des auteurs comprend les trois éléments suivants.
Ces dernières années, une attention particulière a été portée à l'automatisation du traitement de colorisation à l'aide de l'apprentissage automatique. Dans la recherche existante, les réseaux de neurones à convolution profonde sont devenus le courant dominant pour l'apprentissage des prédictions de couleur à partir de grands ensembles de données.
Le processus qui considère la division de la zone rend claire la séparation entre l'objet et le sol, ce qui facilite la composition et le fonctionnement de l'apparence visuelle.
Dans ce système, l'image en noir et blanc $ X ∈ R ^ {H × W × 1} $ est entrée, et les deux canaux de couleur manquants $ Y ∈ R ^ {H × W × 2} $ sont $ CIE L ∗ a ∗. b ∗ Prédire de bout en bout dans l'espace colorimétrique $.
La figure ci-dessous montre la configuration du réseau. Tout d'abord, un détecteur d'objet pré-entraîné est utilisé pour obtenir plusieurs boîtes de délimitation d'objets $ (B_i) ^ N_ {i = 1} $ ($ N $ est le nombre d'instances) à partir d'une image en noir et blanc.
Ensuite, l'image découpée dans l'image en noir et blanc est redimensionnée à l'aide du cadre de sélection détecté pour générer l'image d'instance $ (X_i) ^ N_ {i = 1} $.
Ensuite, chaque image d'occurrence $ X_i $ et image en niveaux de gris d'entrée $ X $ sont respectivement envoyées au réseau de colorisation d'instance et au réseau de colorisation d'image complet. Ici, les cartes de caractéristiques extraites de l'image d'instance $ X_i $ et de l'image en niveaux de gris $ X $ dans la couche réseau $ j $ th sont appelées $ f ^ {Xi} _j $ et $ f ^ X_j $.
Enfin, nous utilisons un module de fusion qui fusionne la fonctionnalité d'instance $ (f_j ^ {Xi}) ^ N_ {i = 1} $ de chaque couche et la fonctionnalité d'image complète $ {f_j ^ X} $. Toutes les caractéristiques d'image fusionnées $ f ^ X_j $ sont transférées vers le calque $ j + 1 $ ème. Répétez cette étape jusqu'au dernier calque pour obtenir l'image couleur prévue $ Y $.
Dans cette recherche, nous adoptons une approche séquentielle consistant d'abord à apprendre l'ensemble du réseau d'images, puis à apprendre le réseau d'instances, et enfin à geler les deux réseaux ci-dessus pour apprendre le module de fusion.
Colorez l'image à l'aide de l'instance d'objet détectée. A cet effet, un masque de réseau pré-formé disponible dans le commerce, Mask R-CNN, a été utilisé comme détecteur d'objet.
Le module de fusion reçoit une entrée similaire à ce qui suit: Le module de fusion a (1) fonctionnalités d'image complètes $ f ^ X_j $, (2) ensemble de fonctionnalités d'instance et la zone de délimitation d'objet correspondante $ (f_j ^ {Xi}) ^ N_ {i = 1} $. Contribution. Pour les deux types de fonctionnalités, nous concevons un petit réseau de neurones avec trois couches de convolution pour prédire la carte de poids d'image complète $ W_F $ et la carte de poids par instance $ W_I ^ i $.
Suivez les étapes ci-dessous pour découvrir l'ensemble du réseau. Tout d'abord, il apprend toute la colorisation d'image et transfère les poids appris au réseau de colorisation d'instance pour l'initialisation. Ensuite, découvrez le réseau de coloration d'instance. Enfin, libérez les poids de tous les modèles d'image et modèles d'instance, et passez à l'apprentissage du module de fusion.
Les trois processus de formation suivants ont été réalisés pour l'ensemble de données ImageNet.
Comparisons with the state-of-the-arts.
Le tableau ci-dessus montre une comparaison des valeurs quantitatives pour les trois ensembles de données. Tous les indicateurs ont obtenu de meilleurs résultats que les méthodes précédentes.
※ LPIPS: Distance entre l'image d'origine et l'image régénérée après projection dans l'espace latent (plus la distance est faible, plus proche et similaire) SSIM: Moyenne des pixels périphériques, dispersion / co-dispersion basée sur la luminosité, le contraste et la structure PSNR: deux images quadrillées par la différence de luminosité des pixels entre les mêmes positions (une qualité supérieure est supérieure)
User study Montrez aux participants la paire de résultats colorés et demandez leurs préférences (comparaison de sélection obligatoire). En conséquence, la méthode des auteurs a été préférée en moyenne par rapport à Zhanget al. (61% contre 39%) et DeOldify (72% contre 28%). Fait intéressant, DeOld-ify ne donne pas les résultats de coloration exacts évalués dans les expériences de référence, mais les résultats de coloration saturés peuvent être préférés par les utilisateurs.
La figure ci-dessus montre deux exemples de pannes. L'approche des auteurs peut aboutir à des artefacts visibles qui semblent être délavés ou chevauchent les limites des objets.
Dans cette étude, des caractéristiques ont été extraites de la branche d'instance et de la branche d'image complète en découpant une image à l'aide d'un modèle de détection d'objet prêt à l'emploi. Ensuite, il a été confirmé qu'une meilleure carte de quantité de caractéristiques pouvait être obtenue en fusionnant avec le module de fusion nouvellement proposé. À la suite de l'expérience, il a été montré que le résultat de cette étude est supérieur à la méthode existante dans l'ensemble de données de trois marques de branche.
J'ai appris la technique d'imagerie couleur qui intègre la technologie de segmentation de domaine (segmentation d'instance). J'ai compris la technologie elle-même, mais j'ai trouvé difficile de discuter quantitativement du fait qu'il s'agit d'une image plausible lorsqu'elle est convertie en image couleur. Si vous avez plusieurs choix, tels que la couleur de la voiture ou la couleur de la végétation, comment décidez-vous quel algorithme vous convient?
Les auteurs testent également pour laisser les gens juger, mais si un algorithme peut être créé dans ce domaine multimodal, ce sera une technologie plus artificiellement intelligente.