Als ich das Papier diagonal unter Papers with Code las, wurde ich in die Technik der Farbabbildung von Schwarzweißbildern eingeführt, die ich einmal lernen wollte. Ich habe die Gliederung übersetzt und hoffe, dass Sie sie hilfreich finden.
Instance-aware Image Colorization https://paperswithcode.com/paper/instance-aware-image-colorization
Eine Farbabbildungstechnologie für Schwarzweißbilder unter Verwendung der Objektteilung wurde kürzlich auf arxiv veröffentlicht.
Die Umwandlung von Schwarzweißbildern in plausible Farbbilder ist ein heißes Forschungsthema. Die Vorhersage von zwei fehlenden Kanälen aus einem Schwarzweißbild ist jedoch ein inhärent schwieriges Problem. Da es mehrere Optionen zum Färben von Objekten gibt, kann der Färbevorgang mehrere Interpretationen haben (z. B. Weiß, Schwarz, Rot für Fahrzeuge).
Die herkömmlich gemeldete Technologie hat das Problem, dass sie nicht gut gefärbt ist, wenn sich viele Objekte auf einem überfüllten Hintergrund befinden (siehe Abbildung unten).
In diesem Artikel haben wir zur Lösung der oben genannten Probleme ein neues Deep-Learning-Framework und eine neue Farbcodierung entwickelt, die sich der Bereichsteilung bewusst sind. Insbesondere wurde festgestellt, dass eine ** klare Trennung des Objekts und des Hintergrunds ** die Färbungsleistung wirksam verbessert.
Das Framework der Autoren besteht aus den folgenden drei.
In den letzten Jahren wurde der Automatisierung der Kolorierungsverarbeitung durch maschinelles Lernen Aufmerksamkeit geschenkt. In der bestehenden Forschung sind tiefe Faltungs-Neuronale Netze zum Mainstream geworden, um Farbvorhersagen aus großen Datensätzen zu lernen.
Der Prozess, der die Flächenteilung berücksichtigt, macht die Trennung zwischen Objekt und Boden klar, was die Zusammensetzung und Bedienung des visuellen Erscheinungsbilds erleichtert.
In diesem System wird das Schwarzweißbild $ X ∈ R ^ {H × B × 1} $ eingegeben, und die beiden fehlenden Farbkanäle $ Y ∈ R ^ {H × B × 2} $ sind $ CIE L ∗ a ∗. b ∗ Vorhersage von Ende zu Ende innerhalb des Farbraums $.
Die folgende Abbildung zeigt die Netzwerkkonfiguration. Zunächst wird ein vorab trainierter Objektdetektor verwendet, um mehrere Objektbegrenzungsrahmen $ (B_i) ^ N_ {i = 1} $ ($ N $ ist die Anzahl der Instanzen) aus einem Schwarzweißbild zu erhalten.
Als nächstes wird die Größe des aus dem Schwarzweißbild ausgeschnittenen Bildes unter Verwendung des erkannten Begrenzungsrahmens geändert, um das Instanzbild $ (X_i) ^ N_ {i = 1} $ zu erzeugen.
Als nächstes werden jedes Instanzbild $ X_i $ und jedes eingegebene Graustufenbild $ X $ an das Instanzfärbungsnetzwerk bzw. das Vollbildfärbungsnetzwerk gesendet. Hier werden die extrahierten Feature-Maps des Instanzbilds $ X_i $ und des Graustufenbilds $ X $ in der $ j $ -ten Netzwerkschicht als $ f ^ {Xi} _j $ und $ f ^ X_j $ bezeichnet.
Schließlich verwenden wir ein Fusionsmodul, das das Instanzmerkmal $ (f_j ^ {Xi}) ^ N_ {i = 1} $ jeder Ebene und das Vollbildmerkmal $ {f_j ^ X} $ zusammenführt. Alle fusionierten Bildmerkmale $ f ^ X_j $ werden auf die $ j + 1 $ -te Ebene übertragen. Wiederholen Sie diesen Schritt bis zur letzten Ebene, um das vorhergesagte Farbbild $ Y $ zu erhalten.
In dieser Studie verfolgen wir einen sequentiellen Ansatz, bei dem zuerst das gesamte Bildnetzwerk, dann das Instanznetzwerk und schließlich die beiden oben genannten Netzwerke eingefroren werden, um das Fusionsmodul zu lernen.
Färben Sie das Bild mit der erkannten Objektinstanz. Zu diesem Zweck wurde eine im Handel erhältliche vorab trainierte Netzwerkmaske R-CNN als Objektdetektor verwendet.
Das Fusionsmodul erhält eine Eingabe ähnlich der folgenden: Das Fusionsmodul hat (1) Vollbildmerkmale $ f ^ X_j $, (2) ein Bündel von Instanzmerkmalen und die entsprechende Objektbegrenzungsbox $ (f_j ^ {Xi}) ^ N_ {i = 1} $ Eingang. Für beide Arten von Merkmalen entwickeln wir ein kleines neuronales Netzwerk mit drei Faltungsschichten, um die Vollbildgewichtskarte $ W_F $ und die Instanzgewichtskarte $ W_I ^ i $ vorherzusagen.
Führen Sie die folgenden Schritte aus, um das gesamte Netzwerk kennenzulernen. Zunächst lernt es die gesamte Bildfärbung und überträgt die erlernten Gewichte zur Initialisierung an das Instanzfärbungsnetzwerk. Lernen Sie als Nächstes das Netzwerk zum Färben von Instanzen. Lassen Sie abschließend die Gewichte aller Bildmodelle und Instanzmodelle los und lernen Sie das Fusionsmodul.
Die folgenden drei Trainingsprozesse wurden für den ImageNet-Datensatz durchgeführt.
Comparisons with the state-of-the-arts.
Die obige Tabelle zeigt einen Vergleich der quantitativen Werte für die drei Datensätze. Alle Indikatoren erzielten bessere Ergebnisse als frühere Methoden.
※ LPIPS: Abstand zwischen dem Originalbild und dem regenerierten Bild nach der Projektion in den latenten Raum (je geringer der Abstand, desto näher und ähnlich) SSIM: Durchschnitt der peripheren Pixel, Dispersion / Co-Dispersion basierend auf Helligkeit, Kontrast und Struktur PSNR: Zwei Bilder im Quadrat durch den Unterschied in der Pixelhelligkeit zwischen denselben Positionen (höher ist höhere Qualität)
User study Zeigen Sie den Teilnehmern das Paar farbiger Ergebnisse und fragen Sie nach ihren Präferenzen (obligatorischer Auswahlvergleich). Infolgedessen wurde die Methode der Autoren im Durchschnitt gegenüber Zhanget al. (61% gegenüber 39%) und DeOldify (72% gegenüber 28%) bevorzugt. Interessanterweise liefert DeOld-ify nicht die genauen Farbergebnisse, die in Benchmark-Experimenten bewertet wurden, aber gesättigte Farbergebnisse können von Benutzern bevorzugt werden.
Die obige Abbildung zeigt zwei Beispiele für Fehler. Der Ansatz der Autoren kann zu sichtbaren Artefakten führen, die scheinbar nicht mehr farbig sind oder die Grenzen von Objekten überschreiten.
In dieser Studie wurden Merkmale aus dem Instanzzweig und dem Vollbildzweig extrahiert, indem ein Bild unter Verwendung eines vorgefertigten Objekterkennungsmodells ausgeschnitten wurde. Dann wurde bestätigt, dass durch Fusion mit dem neu vorgeschlagenen Fusionsmodul eine bessere Merkmalsmengenkarte erhalten werden konnte. Als Ergebnis des Experiments wurde gezeigt, dass das Ergebnis dieser Studie der bestehenden Methode im Datensatz von drei Verzweigungsmarken überlegen ist.
Ich habe die Technik der Farbabbildung gelernt, die die Technologie der Domänensegmentierung (Instanzsegmentierung) beinhaltet. Ich habe die Technologie selbst verstanden, aber es fiel mir schwer, quantitativ zu diskutieren, dass es sich um ein plausibles Bild handelt, wenn es in ein Farbbild umgewandelt wird. Wie entscheiden Sie, welcher Algorithmus am plausibelsten ist, wenn Sie mehrere Möglichkeiten haben, z. B. die Farbe des Autos oder der Vegetation?
Die Autoren testen auch, um Menschen beurteilen zu lassen, aber wenn ein Algorithmus in diesem multimodalen Bereich erstellt werden kann, wird es eine künstlich intelligentere Technologie sein.