Im vorherigen ** "Lebt Yui Arakaki im latenten Raum von StyleGAN2?" **, ** Gelerntes StyleGAN2-Modell ** Es wurde festgestellt, dass ** neue Bilder **, die nicht zum Lernen verwendet werden, auch ** eine hohe Bilderzeugungsfähigkeit ** aufweisen.
Dieses Mal möchte ich das ** trainierte StyleGAN2-Modell ** verwenden, um zu sehen, wie viele ** neue Bilder, die nicht für das Training verwendet werden, bearbeitet werden können.
Der Code wurde mit ** Google Colab ** erstellt und auf [** Github **] veröffentlicht (https://github.com/cedro3/google_colab/blob/master/Check_the_image_editing_ability_ipyn.ipynb). Bitte versuchen Sie es zu bewegen.
StyleGAN generiert bisher kein Bild aus einer latenten Variablen wie GAN, sondern verwendet ein Mapping-Netzwerk, um ein Bild aus 18 latenten Variablen w zu generieren (dies wird als Stil bezeichnet). Mit dieser Funktion wird die Bearbeitung mit dem Namen ** Style Mixing ** möglich.
Die 18 latenten Variablen ** w0 bis w17 ** sind Ebenen mit 9 Auflösungen (4 x 4, 8 x 8, 16 x 16, 32 x 32, 64 x 64, 128 x 128, 256 x 256, 512). Zwei sind jeweils mit × 512, 1024 × 1024) verbunden.
Der Inhalt, den die latente Variable auf die Bilderzeugung auswirkt, hängt von der Auflösung ab. Bei niedriger Auflösung wirkt sich dies auf das Gesamtbild wie Gesichtsausrichtung, Gesichtsform, Frisur aus. Mit zunehmender Auflösung wirkt sich dies auf die Details wie Augen und Mund aus. Ich werde.
Hier können Sie die Merkmale der beiden ** Bilder ** mischen, indem Sie nur den Teil des Bildes A und B mit der ** latenten Variablen w ** austauschen, die als ** Style Miximg ** bezeichnet wird. ist.
Dieses Bild zeigt das Ergebnis des Ersetzens der latenten Variablen ** w0, w1 ** im blauen Rahmen ** Row_pic ** durch die im roten Rahmen ** Col_pic **. ** w0 und w1 beeinflussen hauptsächlich die Ausrichtung des Gesichts und das Vorhandensein oder Fehlen einer Brille **, sodass nur die Ausrichtung des Gesichts unabhängig voneinander geändert werden kann.
Dieses Bild ist das ** w4, w5 ** von Row pic, das durch Col_pic ersetzt wurde. Es ist w4, w5 **, die hauptsächlich die Form des Mundes beeinflussen, was der Punkt des Lachens ist. Es fühlt sich so an, als würde sich die Art und Weise, wie Sie Ihren Mund öffnen, so bewegen, wie sie ist, sodass Sie die Nuancen Ihres Lachens bearbeiten können.
Dieses Bild ist Row_pics ** w0, w1, w2 ** und wird durch Col_pic ersetzt. ** Es sind hauptsächlich w0, w1, w2 **, die die Brille beeinflussen. Da es die Richtung des Gesichts abdeckt, ändert sich gleichzeitig auch die Richtung des Gesichts.
Interessant ist, dass sich die Form der Brille nicht so bewegt, wie sie ist, aber es scheint, dass Row_pic ** individuelle Attribute der Brille ** hat. Daher ist es schwierig, die Brille der beabsichtigten Form aufzusetzen.
Dieses Bild ist Row_pics ** w4, w5, w6, w7 **, ersetzt durch Col_pic. ** Lassen Sie w2, w3 ** von Gesichtsform und Frisur beeinflusst und ersetzen Sie nur ** w4, w5 **, was die Mundform beeinflusst, und w6, w7 **, was die Augenform beeinflusst. Ich bin. Wenn Sie die Form Ihrer Augen und Ihres Mundes ändern, sind Sie ziemlich jung.
Nach wie vor bleiben w2 und w3, die die Form des Gesichts und der Frisur beeinflussen, unverändert, und nur w4, w5, w6 und w7, die die Form von Mund und Augen beeinflussen, werden ersetzt **. Wenn Sie nur die Form der Augen und des Mundes ändern, sieht es etwas älter aus.
Dies ist ein Bonus. Ebenso werden nur w4, w5, w6, w7 ersetzt, aber das Ergebnis ist nicht gut (lacht).
Dies ist eine grobe Zusammenfassung der Beziehungen zwischen den wichtigsten latenten Variablen w, die sich auf die Elemente des Gesichtsbildes beziehen. ** w8 und höher wirken sich nur auf ** wie Kontrast und Farbe aus und scheinen die Gesichtsform nicht direkt zu beeinflussen.
Ich denke, dass das trainierte StyleGAN2-Modell ** hohe Bildbearbeitungsfähigkeiten ** auch für ** neue Bilder ** hat.
(Referenz) StyleGAN spielen !! ~ Bildbearbeitung ohne zusätzliches Lernen ~