[PYTHON] (Lesen des Papiers) Instanzbewusste Bildfärbung (Regionsteilung: Farbabbildung mithilfe der Instanzsegmentierung)

Einführung

Als ich das Papier diagonal unter Papers with Code las, wurde ich in die Technik der Farbabbildung von Schwarzweißbildern eingeführt, die ich einmal lernen wollte. Ich habe die Gliederung übersetzt und hoffe, dass Sie sie hilfreich finden.

Instance-aware Image Colorization https://paperswithcode.com/paper/instance-aware-image-colorization

Eine Farbabbildungstechnologie für Schwarzweißbilder unter Verwendung der Objektteilung wurde kürzlich auf arxiv veröffentlicht.

Zusammenfassung: Zusammenfassung

1. Hintergrund: Einführung

Die Umwandlung von Schwarzweißbildern in plausible Farbbilder ist ein heißes Forschungsthema. Die Vorhersage von zwei fehlenden Kanälen aus einem Schwarzweißbild ist jedoch ein inhärent schwieriges Problem. Da es mehrere Optionen zum Färben von Objekten gibt, kann der Färbevorgang mehrere Interpretationen haben (z. B. Weiß, Schwarz, Rot für Fahrzeuge).

Die herkömmlich gemeldete Technologie hat das Problem, dass sie nicht gut gefärbt ist, wenn sich viele Objekte auf einem überfüllten Hintergrund befinden (siehe Abbildung unten).

image.png

In diesem Artikel haben wir zur Lösung der oben genannten Probleme ein neues Deep-Learning-Framework und eine neue Farbcodierung entwickelt, die sich der Bereichsteilung bewusst sind. Insbesondere wurde festgestellt, dass eine ** klare Trennung des Objekts und des Hintergrunds ** die Färbungsleistung wirksam verbessert.

Das Framework der Autoren besteht aus den folgenden drei.

  1. Regionsteilung und vorgefertigtes Pre-Training-Modell zur Erzeugung geteilter Objektbilder
  2. Zwei Backbone-Netzwerke, die für die Kolorierung von geteilten Objekten und des gesamten Bildes trainiert wurden
  3. Fusionsmodul zum selektiven Mischen von Merkmalen, die aus den Schichten zweier kolorierter Netzwerke extrahiert wurden

2. Verwandte Werke: Verwandte Werke

Lernbasierte Kolorierung

In den letzten Jahren wurde der Automatisierung der Kolorierungsverarbeitung durch maschinelles Lernen Aufmerksamkeit geschenkt. In der bestehenden Forschung sind tiefe Faltungs-Neuronale Netze zum Mainstream geworden, um Farbvorhersagen aus großen Datensätzen zu lernen.

Bilderzeugung und -manipulation basierend auf Bereichsteilung: Instanzbewusste Bildsynthese und -manipulation

Der Prozess, der die Flächenteilung berücksichtigt, macht die Trennung zwischen Objekt und Boden klar, was die Zusammensetzung und Bedienung des visuellen Erscheinungsbilds erleichtert.

  1. Im Vergleich zu DC-GAN und FineGAN, die sich auf ein einzelnes Objekt konzentrieren, können komplexe Bereiche verarbeitet werden.
  2. Im Vergleich zu InstaGAN, einer Technologie, mit der die Überlappung natürlich aussieht, kann die Möglichkeit in Betracht gezogen werden, dass sich alle gleichzeitig überlappen.
  3. Verwenden Sie in vielen Regions-Compositing die erlernte Gewichtung im Vergleich zu Pix2PixHD, bei dem Regionspartitionsgrenzen verwendet werden, um die Compositing-Qualität zu verbessern

3. Übersicht: Übersicht

In diesem System wird das Schwarzweißbild $ X ∈ R ^ {H × B × 1} $ eingegeben, und die beiden fehlenden Farbkanäle $ Y ∈ R ^ {H × B × 2} $ sind $ CIE L ∗ a ∗. b ∗ Vorhersage von Ende zu Ende innerhalb des Farbraums $.

Die folgende Abbildung zeigt die Netzwerkkonfiguration. Zunächst wird ein vorab trainierter Objektdetektor verwendet, um mehrere Objektbegrenzungsrahmen $ (B_i) ^ N_ {i = 1} $ ($ N $ ist die Anzahl der Instanzen) aus einem Schwarzweißbild zu erhalten.

Als nächstes wird die Größe des aus dem Schwarzweißbild ausgeschnittenen Bildes unter Verwendung des erkannten Begrenzungsrahmens geändert, um das Instanzbild $ (X_i) ^ N_ {i = 1} $ zu erzeugen.

Als nächstes werden jedes Instanzbild $ X_i $ und jedes eingegebene Graustufenbild $ X $ an das Instanzfärbungsnetzwerk bzw. das Vollbildfärbungsnetzwerk gesendet. Hier werden die extrahierten Feature-Maps des Instanzbilds $ X_i $ und des Graustufenbilds $ X $ in der $ j $ -ten Netzwerkschicht als $ f ^ {Xi} _j $ und $ f ^ X_j $ bezeichnet.

Schließlich verwenden wir ein Fusionsmodul, das das Instanzmerkmal $ (f_j ^ {Xi}) ^ N_ {i = 1} $ jeder Ebene und das Vollbildmerkmal $ {f_j ^ X} $ zusammenführt. Alle fusionierten Bildmerkmale $ f ^ X_j $ werden auf die $ j + 1 $ -te Ebene übertragen. Wiederholen Sie diesen Schritt bis zur letzten Ebene, um das vorhergesagte Farbbild $ Y $ zu erhalten.

In dieser Studie verfolgen wir einen sequentiellen Ansatz, bei dem zuerst das gesamte Bildnetzwerk, dann das Instanznetzwerk und schließlich die beiden oben genannten Netzwerke eingefroren werden, um das Fusionsmodul zu lernen.

image.png

4. Methode: Methode

4.1 Objekterkennung Objekterkennung

Färben Sie das Bild mit der erkannten Objektinstanz. Zu diesem Zweck wurde eine im Handel erhältliche vorab trainierte Netzwerkmaske R-CNN als Objektdetektor verwendet.

4.3. Fusionsmodul

Das Fusionsmodul erhält eine Eingabe ähnlich der folgenden: Das Fusionsmodul hat (1) Vollbildmerkmale $ f ^ X_j $, (2) ein Bündel von Instanzmerkmalen und die entsprechende Objektbegrenzungsbox $ (f_j ^ {Xi}) ^ N_ {i = 1} $ Eingang. Für beide Arten von Merkmalen entwickeln wir ein kleines neuronales Netzwerk mit drei Faltungsschichten, um die Vollbildgewichtskarte $ W_F $ und die Instanzgewichtskarte $ W_I ^ i $ vorherzusagen.

4.4 Verlustfunktion und Training

Führen Sie die folgenden Schritte aus, um das gesamte Netzwerk kennenzulernen. Zunächst lernt es die gesamte Bildfärbung und überträgt die erlernten Gewichte zur Initialisierung an das Instanzfärbungsnetzwerk. Lernen Sie als Nächstes das Netzwerk zum Färben von Instanzen. Lassen Sie abschließend die Gewichte aller Bildmodelle und Instanzmodelle los und lernen Sie das Fusionsmodul.

image.png

5. Experimente: Experimente

5.1. Experimentelle Einstellung: Experimentelle Einstellung

Datensatz: Datensatz

Trainingsmethode: Trainingsdetails

image.png

Die folgenden drei Trainingsprozesse wurden für den ImageNet-Datensatz durchgeführt.

  1. Alle Bildfärbungsnetzwerke: Initialisiert mit Gewichtsparametern des vorhandenen Modells (Lernrate $ 10 ^ {-5} $)
  2. Segmentiertes Netzwerk: Optimieren Sie das Modell anhand von Instanzen, die aus dem Datensatz extrahiert wurden
  3. Fusionsmodul: Fusion mit einem 13-lagigen neuronalen Netzwerk

5.2 Quantitative Vergleiche

Comparisons with the state-of-the-arts.

image.png

Die obige Tabelle zeigt einen Vergleich der quantitativen Werte für die drei Datensätze. Alle Indikatoren erzielten bessere Ergebnisse als frühere Methoden.

※ LPIPS: Abstand zwischen dem Originalbild und dem regenerierten Bild nach der Projektion in den latenten Raum (je geringer der Abstand, desto näher und ähnlich) SSIM: Durchschnitt der peripheren Pixel, Dispersion / Co-Dispersion basierend auf Helligkeit, Kontrast und Struktur PSNR: Zwei Bilder im Quadrat durch den Unterschied in der Pixelhelligkeit zwischen denselben Positionen (höher ist höhere Qualität)

User study Zeigen Sie den Teilnehmern das Paar farbiger Ergebnisse und fragen Sie nach ihren Präferenzen (obligatorischer Auswahlvergleich). Infolgedessen wurde die Methode der Autoren im Durchschnitt gegenüber Zhanget al. (61% gegenüber 39%) und DeOldify (72% gegenüber 28%) bevorzugt. Interessanterweise liefert DeOld-ify nicht die genauen Farbergebnisse, die in Benchmark-Experimenten bewertet wurden, aber gesättigte Farbergebnisse können von Benutzern bevorzugt werden.

5.7 Fehlerfälle: Fehlerfälle

image.png

Die obige Abbildung zeigt zwei Beispiele für Fehler. Der Ansatz der Autoren kann zu sichtbaren Artefakten führen, die scheinbar nicht mehr farbig sind oder die Grenzen von Objekten überschreiten.

6. Schlussfolgerungen: Schlussfolgerungen

In dieser Studie wurden Merkmale aus dem Instanzzweig und dem Vollbildzweig extrahiert, indem ein Bild unter Verwendung eines vorgefertigten Objekterkennungsmodells ausgeschnitten wurde. Dann wurde bestätigt, dass durch Fusion mit dem neu vorgeschlagenen Fusionsmodul eine bessere Merkmalsmengenkarte erhalten werden konnte. Als Ergebnis des Experiments wurde gezeigt, dass das Ergebnis dieser Studie der bestehenden Methode im Datensatz von drei Verzweigungsmarken überlegen ist.

Am Ende

Ich habe die Technik der Farbabbildung gelernt, die die Technologie der Domänensegmentierung (Instanzsegmentierung) beinhaltet. Ich habe die Technologie selbst verstanden, aber es fiel mir schwer, quantitativ zu diskutieren, dass es sich um ein plausibles Bild handelt, wenn es in ein Farbbild umgewandelt wird. Wie entscheiden Sie, welcher Algorithmus am plausibelsten ist, wenn Sie mehrere Möglichkeiten haben, z. B. die Farbe des Autos oder der Vegetation?

Die Autoren testen auch, um Menschen beurteilen zu lassen, aber wenn ein Algorithmus in diesem multimodalen Bereich erstellt werden kann, wird es eine künstlich intelligentere Technologie sein.

Recommended Posts

(Lesen des Papiers) Instanzbewusste Bildfärbung (Regionsteilung: Farbabbildung mithilfe der Instanzsegmentierung)
Bildsegmentierung mit U-Net