Pokemon Generation Modell

Lassen Sie uns das endgültige Evolutionssystem von Pokemon weiterentwickeln, indem wir das Pokemon-Generierungsmodell mit StyleGAN2 verwenden, das in [Vergangener Artikel] zusammengefasst ist (https://qiita.com/Takuya-Shuto-engineer/items/1e2750905f22a0b07287). Ich denke über das Schlechte nach. Diejenigen, die ich kürzlich implementiert habe, funktionieren oft und ich kam auf die Idee, als ich daran dachte, ein Gott zu werden.

Dieses Mal möchte ich die Geschichte, die die Entwicklung von Pokemon in Frage stellte, als Anwendungsbeispiel vorstellen und die zu verwendende Technologie etwas detaillierter erläutern.

Die spezifische Methode ist wie folgt. Dieses Mal stellte ich die Hypothese auf, dass die Pokémon, die sich auf einer geraden Linie entwickelt haben, in einer Reihe stehen. Pikachu → Raichu →? Ich werde unter der Annahme der Aktualisierung der endgültigen Entwicklung erklären.

--Laden Sie das trainierte StyleGAN2-Modell

Schätzen Sie latente Variablen, die Pikachu und Raichu erzeugen --Berechnen Sie einen Vektor in der Dimensionsrichtung, der durch die beiden Punkte Pikachu und Raichu verläuft
Wenn Sie es in diese Vektorrichtung bewegen, erscheint ein von Pikachu abgeleitetes Pokémon (sollte)

Einführung verwandter Forschung

Image2StylyGAN Es ist bekannt, dass gut erlernte und ausdrucksstarke Generierungsmodelle wie PGGAN und StyleGAN neue Gesichter erzeugen, die im Datensatz nicht vorhanden sind. Das Konzept von Image2StyleGAN besteht darin, diese Eigenschaft zu verwenden, um latente Variablen zu schätzen, die beliebige Bilder in einem weiten Raum latenter Variablen erzeugen.

Zitiert aus Image2StyleGAN-Papier

Es gibt zwei mögliche Methoden zum Schätzen der latenten Variablen, die einem bestimmten Bild entspricht.

Den Encoder entsprechend dem Generierungsmodell (Decoder) trainieren
Suchen Sie im latenten Variablenraum, um die Ähnlichkeit zwischen dem erzeugten Bild und dem gewünschten Bild als Verlustfunktion zu minimieren.

Ersteres scheint empirisch nicht erfolgreich zu sein, und Image2StyleGAN verwendet die letztere Optimierungsmethode.

Der Wahrnehmungsverlust wird als Verlustfunktion verwendet, und die Ähnlichkeit zwischen Bildern wird als Verlust berechnet, indem die Merkmale verglichen werden, die durch Eingabe von Bildern in das von ImageNet trainierte VGG16-Modell erhalten werden. Durch die Optimierung des sensorischen Verlusts mit Adam ist es möglich, das erzeugte Bild zu finden, das den Wahrnehmungsmerkmalen von VGG16 entspricht. Zhang, 2018 scheint als Wahrnehmungsmodell berühmt zu sein, und ich werde es dieses Mal wieder verwenden.

Wenn Sie nur die Ähnlichkeit zwischen Bildern berechnen möchten, können Sie etwas FaceNet neu lernen, das für diesen Zweck trainiert wird, und Ihr eigenes Modell erstellen. Ich weiß es nicht.

Als Reproduktionsexperiment ersetzte ich das Modell durch ein trainiertes Modell von StyleGAN2 (config-f) und rekonstruierte Premierminister Abe.

shinzo.pngcompare.png

InterFaceGAN In dieser Studie geht es auch um das Verhalten von Bildern im latenten variablen Raum in einem gut trainierten Generationsmodell. Diese Studie legt nahe, dass es für ein bestimmtes Attribut eine separate Superebene im latenten Variablenraum gibt. Wenn die getrennte Hyperebene geschätzt werden kann, können ihre Attribute geändert werden, indem die latente Variable in Richtung ihres Normalenvektors bewegt wird.

Zitiert aus InterFaceGAN-Papier

Die Methode zur Schätzung der Trennungs-Superebene ist einfach und ziemlich schlammig. Führen Sie die folgenden Schritte aus. Betrachten Sie als Beispiel die Schätzung der Superplane der Brille.

Lernen eines Modells, das das Vorhandensein oder Fehlen einer Brille mit einer Punktzahl von 0-1 schätzt
Generieren Sie zufällig Zehntausende von Beispielbildern aus dem generierten Modell
Berechnen Sie die Punktzahl der Brille für alle Beispielbilder und ordnen Sie die latenten Variablenkoordinaten der Punktzahl zu. --Berechnen Sie die Superplane, die das Bild mit Brille am meisten trennt, und das Bild ohne Brille mit SVM
Ändern Sie den Attributwert, indem Sie die latente Variable in Richtung des Normalenvektors der geschätzten Trennungshyperebene verschieben.

Übrigens, als ich es durch das StyleGAN2-Modell ersetzte und die Attribute im Reproduktionsexperiment änderte, sah es so aus.

Sex

Alter

Es ist lange her, aber dank dieser Forschung können wir sehen, dass die Trennungs-Superebene des Attributs beim Lernen im latenten variablen Raum gebildet wird. Mit anderen Worten, es scheint, dass die Entwicklung von Pokemon auch in einer bestimmten Dimensionsrichtung ausgedrückt wird. Im Gegensatz zu den Attributen des menschlichen Gesichts gibt es jedoch zu viele Arten von Pokémon, so dass ich denke, dass dies nur für die evolutionäre Linie einer Rasse gilt.

Versuchen

Das diesmal verwendete Modell lernte StyleGAN2 (config-f) mit dem Datensatz von MosnterGAN. Es ist ein Modell. Die Bildgröße beträgt 64 x 64, und für 1120 kimg werden ungefähr 15.000 Bilder gelernt.

Das erzeugte Bild sieht so aus

Um ehrlich zu sein, ist die Qualität nicht gut, aber ich verwende sie, weil ich denke, dass es möglich ist, mit den im Datensatz enthaltenen Bildern umzugehen. (Da es mit einem FID-Wert von ungefähr 50 stagniert, werde ich hier aufhören)

Bildeinbettung mit Image2StyleGAN

Überprüfen Sie zunächst, ob es latente Variablen gibt, die Pikachu und Raichu reproduzieren können.

Pikachu

Licht Chu

Es ist komplett Pachimon ... An diesem Punkt bin ich verzweifelt nach der geringen Ausdruckskraft des Modells, aber ich werde es bis zum Ende versuchen.

Bewegen Sie sich in die Dimensionsrichtung, die zwischen den beiden Punkten vor und nach der Evolution verläuft

Ich versuchte nach und nach eine lineare Komplementation von Pikachu in Richtung der Evolution.

Es wurden Ergebnisse erhalten, die sich wahrscheinlich um den bösen / elektrischen Typ herum entwickeln. Da die Form allmählich zusammenbricht, denke ich, dass sie den Bereich überschreitet, der im latenten variablen Raum ausgedrückt werden kann. Es ist mangelnde Ausdruckskraft.

Es ist frustrierend, aber seit ich so weit gekommen bin, habe ich verschiedene Dinge ausprobiert.

Es ist fast wie ein hohes Maß an geistiger Verschmutzung ...

Zusammenfassung

Ich habe versucht, Pokemon mit dem Modell StyleGAN2 Pokemon zu entwickeln, das ich selbst gelernt habe, aber es endete mit einem subtilen Gefühl.

Als Lösung sollten wir erwägen, das Lernmodell zu verbessern. Aufgrund mangelnder Ausdruckskraft ist es möglich, dass die zum Erfassen verschiedener Pokémon erforderliche Datenmenge nicht erreicht wurde. Daher denke ich darüber nach, die Daten zu erweitern und das Gewicht des Datensatzes in Zukunft zu erhöhen.

Ich habe Daten mit unterschiedlichen Farben eingefügt, aber wenn unterschiedliche Farben zulässig sind, ist es meiner Meinung nach in Ordnung, viele Bilder einzufügen, bei denen das gesamte Bild farblich konvertiert wurde. Es war ein Thema, das ich noch einmal versuchen möchte, indem ich die Anzahl der Bilder durch Erweitern der Daten und Lernen auf etwa 50.000 erhöhe!

Wenn Sie Ratschläge haben, wie diejenigen, die damit vertraut sind, werden wir gerne weinen!