[PYTHON] (Lecture du papier) Colorisation d'image prenant en charge les instances (Division de la région: imagerie couleur utilisant la segmentation d'instance)

introduction

Lorsque je lisais l'article en diagonale à Papers with Code, j'ai été initié à la technique d'imagerie couleur d'images en noir et blanc, que je voulais apprendre une fois. J'ai traduit le plan, j'espère donc que vous le trouverez utile.

Instance-aware Image Colorization https://paperswithcode.com/paper/instance-aware-image-colorization

Une technologie d'imagerie couleur pour les images en noir et blanc utilisant la division d'objets a récemment été publiée sur arxiv.

Résumé: Résumé

1. Contexte: introduction

La conversion d'une image en noir et blanc en une image couleur plausible est un thème de recherche brûlant. Cependant, la prédiction de deux canaux manquants à partir d'une image en noir et blanc pose un problème intrinsèquement difficile. De plus, comme il existe plusieurs options pour colorer les objets, le processus de coloration peut avoir plusieurs interprétations (par exemple, blanc, noir, rouge pour les véhicules, etc.).

La technologie classiquement rapportée a le problème qu'elle n'est pas bien colorée lorsqu'il y a de nombreux objets sur un fond encombré (voir la figure ci-dessous).

image.png

Dans cet article, afin de résoudre les problèmes ci-dessus, nous avons réalisé un nouveau cadre d'apprentissage en profondeur et un code couleur conscient de la division des zones. En particulier, il a été constaté que ** séparer clairement l'objet et l'arrière-plan ** est efficace pour améliorer les performances de colorisation.

Le cadre des auteurs comprend les trois éléments suivants.

  1. Division de région et modèle de pré-formation prêt à l'emploi pour générer des images d'objets divisés
  2. Deux réseaux dorsaux formés pour la colorisation des objets divisés et de l'image entière
  3. Module de fusion pour mélanger sélectivement des caractéristiques extraites des couches de deux réseaux colorisés

2. Travaux connexes: travaux connexes

Colorisation basée sur l'apprentissage

Ces dernières années, une attention particulière a été portée à l'automatisation du traitement de colorisation à l'aide de l'apprentissage automatique. Dans la recherche existante, les réseaux de neurones à convolution profonde sont devenus le courant dominant pour l'apprentissage des prédictions de couleur à partir de grands ensembles de données.

Génération et manipulation d'images basées sur la division de zone: synthèse et manipulation d'images sensibles à l'instance

Le processus qui considère la division de la zone rend claire la séparation entre l'objet et le sol, ce qui facilite la composition et le fonctionnement de l'apparence visuelle.

  1. Par rapport à DC-GAN et FineGAN, qui se concentrent sur un seul objet, il peut gérer des zones complexes.
  2. Par rapport à InstaGAN, qui est une technologie qui donne un aspect naturel au chevauchement, il est possible d'envisager la possibilité que tous se chevauchent en même temps.
  3. Utilisez la pondération apprise dans la composition de nombreuses régions par rapport à Pix2PixHD, qui utilise des limites de segmentation de région pour améliorer la qualité de composition

3. Aperçu: Aperçu

Dans ce système, l'image en noir et blanc $ X ∈ R ^ {H × W × 1} $ est entrée, et les deux canaux de couleur manquants $ Y ∈ R ^ {H × W × 2} $ sont $ CIE L ∗ a ∗. b ∗ Prédire de bout en bout dans l'espace colorimétrique $.

La figure ci-dessous montre la configuration du réseau. Tout d'abord, un détecteur d'objet pré-entraîné est utilisé pour obtenir plusieurs boîtes de délimitation d'objets $ (B_i) ^ N_ {i = 1} $ ($ N $ est le nombre d'instances) à partir d'une image en noir et blanc.

Ensuite, l'image découpée dans l'image en noir et blanc est redimensionnée à l'aide du cadre de sélection détecté pour générer l'image d'instance $ (X_i) ^ N_ {i = 1} $.

Ensuite, chaque image d'occurrence $ X_i $ et image en niveaux de gris d'entrée $ X $ sont respectivement envoyées au réseau de colorisation d'instance et au réseau de colorisation d'image complet. Ici, les cartes de caractéristiques extraites de l'image d'instance $ X_i $ et de l'image en niveaux de gris $ X $ dans la couche réseau $ j $ th sont appelées $ f ^ {Xi} _j $ et $ f ^ X_j $.

Enfin, nous utilisons un module de fusion qui fusionne la fonctionnalité d'instance $ (f_j ^ {Xi}) ^ N_ {i = 1} $ de chaque couche et la fonctionnalité d'image complète $ {f_j ^ X} $. Toutes les caractéristiques d'image fusionnées $ f ^ X_j $ sont transférées vers le calque $ j + 1 $ ème. Répétez cette étape jusqu'au dernier calque pour obtenir l'image couleur prévue $ Y $.

Dans cette recherche, nous adoptons une approche séquentielle consistant d'abord à apprendre l'ensemble du réseau d'images, puis à apprendre le réseau d'instances, et enfin à geler les deux réseaux ci-dessus pour apprendre le module de fusion.

image.png

4. Méthode: Méthode

4.1 Détection d'objets Détection d'objets

Colorez l'image à l'aide de l'instance d'objet détectée. A cet effet, un masque de réseau pré-formé disponible dans le commerce, Mask R-CNN, a été utilisé comme détecteur d'objet.

4.3. Module de fusion

Le module de fusion reçoit une entrée similaire à ce qui suit: Le module de fusion a (1) fonctionnalités d'image complètes $ f ^ X_j $, (2) ensemble de fonctionnalités d'instance et la zone de délimitation d'objet correspondante $ (f_j ^ {Xi}) ^ N_ {i = 1} $. Contribution. Pour les deux types de fonctionnalités, nous concevons un petit réseau de neurones avec trois couches de convolution pour prédire la carte de poids d'image complète $ W_F $ et la carte de poids par instance $ W_I ^ i $.

4.4. Fonction de perte et formation

Suivez les étapes ci-dessous pour découvrir l'ensemble du réseau. Tout d'abord, il apprend toute la colorisation d'image et transfère les poids appris au réseau de colorisation d'instance pour l'initialisation. Ensuite, découvrez le réseau de coloration d'instance. Enfin, libérez les poids de tous les modèles d'image et modèles d'instance, et passez à l'apprentissage du module de fusion.

image.png

5. Expériences: Expériences

5.1. Cadre expérimental: cadre expérimental

Dataset: Dataset

Méthode de formation: détails de la formation

image.png

Les trois processus de formation suivants ont été réalisés pour l'ensemble de données ImageNet.

  1. Tout le réseau de colorisation d'image: initialisé avec les paramètres de poids du modèle existant (taux d'apprentissage 10 $ ^ {-5} $)
  2. Réseau segmenté: affinez le modèle avec des instances extraites de l'ensemble de données
  3. Module de fusion: Fusion avec un réseau neuronal à 13 couches

5.2. Comparaisons quantitatives

Comparisons with the state-of-the-arts.

image.png

Le tableau ci-dessus montre une comparaison des valeurs quantitatives pour les trois ensembles de données. Tous les indicateurs ont obtenu de meilleurs résultats que les méthodes précédentes.

※ LPIPS: Distance entre l'image d'origine et l'image régénérée après projection dans l'espace latent (plus la distance est faible, plus proche et similaire) SSIM: Moyenne des pixels périphériques, dispersion / co-dispersion basée sur la luminosité, le contraste et la structure PSNR: deux images quadrillées par la différence de luminosité des pixels entre les mêmes positions (une qualité supérieure est supérieure)

User study Montrez aux participants la paire de résultats colorés et demandez leurs préférences (comparaison de sélection obligatoire). En conséquence, la méthode des auteurs a été préférée en moyenne par rapport à Zhanget al. (61% contre 39%) et DeOldify (72% contre 28%). Fait intéressant, DeOld-ify ne donne pas les résultats de coloration exacts évalués dans les expériences de référence, mais les résultats de coloration saturés peuvent être préférés par les utilisateurs.

5.7 Cas d'échec: cas d'échec

image.png

La figure ci-dessus montre deux exemples de pannes. L'approche des auteurs peut aboutir à des artefacts visibles qui semblent être délavés ou chevauchent les limites des objets.

6. Conclusions: Conclusions

Dans cette étude, des caractéristiques ont été extraites de la branche d'instance et de la branche d'image complète en découpant une image à l'aide d'un modèle de détection d'objet prêt à l'emploi. Ensuite, il a été confirmé qu'une meilleure carte de quantité de caractéristiques pouvait être obtenue en fusionnant avec le module de fusion nouvellement proposé. À la suite de l'expérience, il a été montré que le résultat de cette étude est supérieur à la méthode existante dans l'ensemble de données de trois marques de branche.

À la fin

J'ai appris la technique d'imagerie couleur qui intègre la technologie de segmentation de domaine (segmentation d'instance). J'ai compris la technologie elle-même, mais j'ai trouvé difficile de discuter quantitativement du fait qu'il s'agit d'une image plausible lorsqu'elle est convertie en image couleur. Si vous avez plusieurs choix, tels que la couleur de la voiture ou la couleur de la végétation, comment décidez-vous quel algorithme vous convient?

Les auteurs testent également pour laisser les gens juger, mais si un algorithme peut être créé dans ce domaine multimodal, ce sera une technologie plus artificiellement intelligente.

Recommended Posts

(Lecture du papier) Colorisation d'image prenant en charge les instances (Division de la région: imagerie couleur utilisant la segmentation d'instance)
Segmentation d'image à l'aide de U-net