HyperStyle, une adaptation de StyleGAN pour l'édition d'images

Équipement Des chercheurs de l'Université de Tel Aviv ont récemment dévoilé HyperStyle, c'est laquelle une version inversée du système d'apprentissage automatique NVIDIA StyleGAN2 qui a été repensé pour recréer les pièces manquantes lors de l'édition d'images du monde réel.

StyleGAN se caractérise en permettant de synthétiser de nouveaux visages de personnes avec une apparence réaliste, définir des paramètres tels que l'âge, le sexe, la longueur des cheveux, le caractère du sourire, la forme du nez, la couleur de la peau, les lunettes et l'angle photographique.

En outre, HyperStyle permet de modifier des paramètres similaires dans ceux existants, En d'autres termes, il vous permet de créer des photographies sans modifier leurs caractéristiques et en préservant la reconnaissabilité du visage d'origine.

HyperStyle introduit les hyperréseaux pour apprendre à affiner les poids d'un générateur StyleGAN préalablement formé par rapport à une image d'entrée donnée. Cela permet des reconstructions de niveau d'optimisation avec des temps d'inférence de type encodeur et une éditabilité élevée.

Par exemple, lors de l'utilisation HyperStyle, peut simuler un changement d'âge d'une personne sur une photo, changez une coiffure, ajoutez des lunettes, de la barbe ou de la moustache, faites ressembler une image à un personnage de dessin animé ou à une image dessinée à la main, faites une expression de visage triste ou heureux.

Dans ce cas, Le système peut être entraîné non seulement pour changer les visages des personnes, mais aussi pour n'importe quel objet, par Par exemple, pour éditer des images de voitures.

La plupart des travaux qui étudient l'inversion recherchent un code latent qui reconstruit plus fidèlement une image donnée. Certains travaux récents ont proposé un réglage fin de l'image des poids du générateur pour obtenir une reconstruction de haute qualité pour une image cible donnée. Avec HyperStyle, nous visons à amener ces approches de réglage de générateur au domaine des applications interactives en les adaptant à une approche basée sur l'encodeur.

Nous avons formé un seul hyperréseau pour apprendre à affiner les poids du générateur par rapport à une image cible souhaitée. En apprenant ce mappage, HyperStyle prédit efficacement les poids cibles du générateur en moins de 2 secondes par image, ce qui le rend applicable à un large éventail d'applications.

La méthode proposée vise à résoudre le problème de la reconstruction des parties manquantes d'une image lors du montage. Les techniques proposées ci-dessus ont abordé l'équilibre entre la reconstruction et l'édition en ajustant l'imageur pour remplacer des parties de l'image cible tout en recréant des régions éditables qui manquaient à l'origine. L'inconvénient de telles approches est la nécessité d'un entraînement ciblé à long terme du réseau de neurones pour chaque image.

La méthode basée sur l'algorithme StyleGAN permet d'utiliser un modèle type, pré-entraînés sur des collections d'images communes, pour générer des éléments caractéristiques de l'image originale avec un niveau de confiance comparable aux algorithmes qui nécessitent un apprentissage individuel du modèle pour chaque image.

L'un des avantages de la nouvelle méthode est la possibilité de modifier les images avec une performance proche du temps réel, en plus du fait que le modèle est prêt à s'entraîner préparé pour ces personnes, voitures et animaux basés sur les collections de Flickr-the Faces-HQ (FFHQ, 70,000 16 images PNG de haute qualité de visages de personnes), The Stanford Cars (XNUMX XNUMX images de voitures) et AFHQ (photos d'animaux).

En outre, un ensemble d'outils est fourni pour former vos modèlesainsi que des modèles entraînés prêts à l'emploi d'encodeurs et de générateurs typiques pouvant être utilisés avec eux. Par exemple, il existe des générateurs disponibles pour créer des images de style Toonify, des personnages Pixar, créer des croquis et même un style comme les princesses Disney.

Enfin pour ceux qui veulent en savoir plus À propos de cet outil, vous pouvez vérifier les détails dans le lien suivant.

Il est également important de mentionner que le code est écrit en Python à l'aide du framework PyTorch et qu'il est sous licence MIT. Vous pouvez vérifier le code sur le lien suivant.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.