HyperStyle, una adaptació de StyleGAN per a l'edició d'imatges

Un equip de investigadors de la Universitat de Tel Aviv va donar a conèixer recentment HyperStyle, La qual és una versió invertida del sistema daprenentatge automàtic StyleGAN2 de NVIDIA que ha estat redissenyat per recrear les peces faltants en editar imatges del món real.

StyleGAN es caracteritza per permetre sintetitzar noves cares de persones d'aparença realista, establint paràmetres com l'edat, el gènere, la longitud dels cabells, el caràcter del somriure, la forma del nas, el color de la pell, les ulleres i l'angle fotogràfic.

D'altra banda, HyperStyle fa possible canviar paràmetres similars als existents, és a dir, permet crear fotografies sense modificar-ne els trets característics i conservant la reconeixibilitat del rostre original.

HyperStyle introdueix hipernetworks per aprendre a refinar els pesos d'un generador StyleGAN prèviament entrenat pel que fa a una imatge d'entrada determinada. Fer-ho permet reconstruccions de nivell d'optimització amb temps d'inferència similars als d'un codificador i una capacitat d'edició alta.

Per exemple, en fer servir HyperStyle, pot simular un canvi a l'edat d'una persona en una fotografia, canviar un pentinat, afegir lents, barba o bigoti, fer que una imatge sembli un personatge de dibuixos animats o una imatge dibuixada a mà, fer una expressió de la cara trista o alegre.

En aquest cas, el sistema es pot entrenar no només per canviar les cares de les persones, sinó també per a qualsevol objecte, per exemple, per editar imatges dautomòbils.

La majoria dels treballs que estudien la inversió busquen un codi latent que reconstrueixi amb més precisió una imatge determinada. Alguns treballs recents han proposat un ajustament fi per imatge dels pesos del generador per assolir una reconstrucció d'alta qualitat per a una imatge objectiu determinada. Amb HyperStyle, el nostre objectiu és portar aquests enfocaments de configuració de generadors a l'àmbit de les aplicacions interactives adaptant-los a un enfocament basat en codificadors.

Entrenem un solohipernetwork per aprendre a refinar els pesos del generador pel que fa a una imatge de destinació desitjada. En aprendre aquest mapeig, HyperStyle prediu de manera eficient els pesos desitjats del generador en menys de 2 segons per imatge, cosa que el fa aplicable a una àmplia gamma d'aplicacions.

El mètode proposat té com a objectiu resoldre el problema de reconstruir parts que falten una imatge durant l'edició. Les tècniques proposades anteriorment s'han ocupat de l'equilibri entre la reconstrucció i l'edició mitjançant l'ajustament fi del generador d'imatges per substituir porcions de la imatge de destinació mentre es recreen les regions editables que faltaven originalment. El desavantatge de tals enfocaments és la necessitat dun entrenament dirigit a llarg termini de la xarxa neuronal per a cada imatge.

El mètode basat en l'algorisme StyleGAN permet utilitzar un model típic, preentrenat sobre col·leccions comunes d'imatges, per generar elements característics de la imatge original amb un nivell de confiança comparable als algoritmes que requereixen un entrenament individual del model per a cada imatge.

Un dels avantatges del nou mètode és la capacitat de modificar imatges amb un rendiment proper al temps real, a més que el model està llest per entrenar preparat per a aquestes persones, autos i animals basat en les col·leccions de Flickr-the Faces-HQ (FFHQ, 70,000 imatges PNG d'alta qualitat de cares de persones), The Stanford Cars (16 mil imatges de cotxes) i AFHQ (fotos d'animals).

A més, es proporciona un conjunt d'eines per entrenar els models, així com models entrenats llestos per utilitzar de codificadors i generadors típics adequats per utilitzar amb ells. Per exemple, hi ha generadors disponibles per crear imatges a l'estil de Toonify, personatges de Pixar, crear esbossos i fins i tot estilitzar com a princeses de Disney.

Finalment per a aquells que estiguin interessats a poder conèixer més sobre aquesta eina, podeu consultar els detalls en el següent enllaç.

També és important esmentar que el codi està escrit a Python usant el marc de PyTorch i té la llicència MIT. Podeu consultar el codi a el següent enllaç.

LinuxAdictos

HyperStyle, una adaptació de StyleGAN per a l'edició d'imatges

Deixa el teu comentari Cancel lar la resposta