Dans le précédent ** "Yui Arakaki vit-il dans l'espace latent de StyleGAN2?" **, ** modèle StyleGAN2 appris ** Il a été constaté que les ** nouvelles images ** qui ne sont pas utilisées pour l'apprentissage ont également ** une capacité élevée de génération d'images **.
Cette fois, je voudrais jeter un oeil à ** combien de nouvelles images qui ne sont pas utilisées pour la formation peuvent être éditées ** en utilisant le ** modèle StyleGAN2 entraîné **.
Le code a été créé à l'aide de ** Google Colab ** et publié sur ** Github **. Veuillez essayer de le déplacer.
StyleGAN ne génère pas d'image à partir d'une variable latente comme GAN jusqu'à présent, mais utilise un réseau de cartographie pour générer une image à partir de 18 variables latentes w (cela s'appelle style). Profitant de cette fonctionnalité, l'édition appelée ** Style Mixing ** devient possible.
Les 18 variables latentes ** w0 à w17 ** sont des couches avec 9 résolutions (4 x 4, 8 x 8, 16 x 16, 32 x 32, 64 x 64, 128 x 128, 256 x 256, 512. Deux sont connectés à chacun des × 512, 1024 × 1024).
Le contenu selon lequel la variable latente affecte la génération d'image diffère en fonction de la résolution, et à basse résolution, il affecte la vue d'ensemble telle que l'orientation du visage, la forme du visage, la coiffure et, à mesure que la résolution augmente, cela affecte les détails tels que les yeux et la bouche. Je vais.
Ici, vous pouvez mélanger les caractéristiques des deux ** images ** en échangeant uniquement la partie de l'image A et l'image B où la variable latente w est **, et cela s'appelle ** Style Miximg **. est.
Cette image montre le résultat du remplacement des variables latentes ** w0, w1 ** dans le cadre bleu ** Row_pic ** par celles dans le cadre rouge ** Col_pic **. ** w0 et w1 affectent principalement l'orientation du visage et la présence ou l'absence de lunettes **, de sorte que seule l'orientation du visage peut être modifiée indépendamment.
Cette image est ** w4, w5 ** de Row pic remplacé par Col_pic. Ce sont principalement w4 et w5 ** qui affectent la forme de la bouche, qui est le point de rire. Vous avez l'impression que la façon dont vous ouvrez la bouche bouge telle qu'elle est, vous pouvez donc modifier les nuances de votre rire.
Cette image est Row_pic avec ** w0, w1, w2 ** remplacé par Col_pic. ** Ce sont principalement w0, w1, w2 ** qui affectent les lunettes. Puisqu'il couvre la direction du visage, la direction du visage change également en même temps.
Ce qui est intéressant, c'est que la forme des verres ne bouge pas telle quelle, mais il semble que Row_pic ait ** des attributs individuels des verres **. Par conséquent, il est difficile de mettre les verres de la forme voulue.
Cette image est ** w4, w5, w6, w7 ** de Row_pic remplacée par Col_pic. ** Laissez w2, w3 ** affecté par la forme du visage et la coiffure, et remplacez uniquement ** w4, w5 **, qui affecte la forme de la bouche, et w6, w7 **, qui affectent la forme des yeux. Je suis. Si vous changez la forme de vos yeux et de votre bouche, vous serez assez jeune.
Comme précédemment, w2 et w3, qui affectent la forme du visage et de la coiffure, sont laissés tels quels, et seuls w4, w5, w6 et w7, qui affectent la forme de la bouche et des yeux, sont remplacés **. Le simple fait de changer la forme des yeux et de la bouche le fait paraître un peu plus vieux.
Ceci est un bonus. De même, seuls w4, w5, w6, w7 sont remplacés, mais le résultat n'est pas bon (rires).
Ceci est un résumé grossier des relations entre les principales variables latentes w liées aux éléments de l'image du visage. ** w8 et plus n'affectent que ** tels que le contraste et la couleur, et ne semblent pas affecter directement la forme du visage.
Je pense que le modèle StyleGAN2 entraîné a ** une capacité d'édition d'image élevée ** même pour ** de nouvelles images **.
(référence) Jouez à StyleGAN !! ~ Édition d'image sans apprentissage supplémentaire ~