HyperStyle, o adaptare a StyleGAN pentru editarea imaginilor

O echipă de Cercetătorii de la Universitatea Tel Aviv au dezvăluit recent HyperStyle, care este o versiune inversată a sistemului de învățare automată NVIDIA StyleGAN2 care a fost reproiectat pentru a recrea piesele lipsă la editarea imaginilor din lumea reală.

StyleGAN se caracterizează prin posibilitatea de a sintetiza fețe noi ale oamenilor cu un aspect realist, stabilirea unor parametri precum vârsta, sexul, lungimea părului, caracterul zâmbetului, forma nasului, culoarea pielii, ochelarii și unghiul fotografic.

În plus, HyperStyle face posibilă modificarea parametrilor similari în cei existenți, Cu alte cuvinte, vă permite să creați fotografii fără a modifica trăsăturile lor caracteristice și păstrând recunoașterea feței originale.

HyperStyle introduce hiperrețele pentru a învăța cum să rafinați greutățile unui generator StyleGAN antrenat anterior în raport cu o imagine de intrare dată. Acest lucru permite reconstruirea nivelului de optimizare cu timpi de inferență asemănător codificatorului și editabilitate ridicată.

De exemplu, când se utilizează HyperStyle, poate simula o schimbare a vârstei unei persoane într-o fotografie, schimbați o coafură, adăugați ochelari, barbă sau mustață, faceți o imagine să arate ca un personaj de desene animate sau o imagine desenată manual, faceți o expresie a feței tristă sau fericită.

În acest caz, Sistemul poate fi antrenat nu doar pentru a schimba fețele oamenilor, ci și pentru orice obiect, pt De exemplu, pentru a edita imaginile mașinii.

Majoritatea lucrărilor care studiază inversiunea caută un cod latent care reconstruiește mai precis o imagine dată. Unele lucrări recente au propus reglarea fină a greutăților generatorului pentru a obține o reconstrucție de înaltă calitate pentru o anumită imagine țintă. Cu HyperStyle, ne propunem să aducem aceste abordări de reglare a generatorului în domeniul aplicațiilor interactive, adaptându-le la o abordare bazată pe codificator.

Am antrenat o singură hiperrețea pentru a învăța cum să rafinam greutățile generatorului în raport cu o imagine țintă dorită. Învățând această mapare, HyperStyle prezice eficient greutățile țintei generatorului în mai puțin de 2 secunde per imagine, făcându-l aplicabil unei game largi de aplicații.

Metoda propusă își propune să rezolve problema reconstrucției părților lipsă ale unei imagini în timpul editării. Tehnicile propuse mai sus au abordat echilibrul dintre reconstrucție și editare prin reglarea fină a aparatului de imagine pentru a înlocui porțiuni din imaginea țintă în timp ce recreează regiuni editabile care lipseau inițial. Dezavantajul unor astfel de abordări este necesitatea unui antrenament țintit pe termen lung a rețelei neuronale pentru fiecare imagine.

Metoda bazată pe algoritmul StyleGAN permite utilizarea unui model tipic, preantrenat pe colecții comune de imagini, pentru a genera elemente caracteristice ale imaginii originale cu un nivel de încredere comparabil cu algoritmii care necesită o pregătire individuală a modelului pentru fiecare imagine.

Unul dintre avantajele noii metode este capacitatea de a modifica imagini cu o performanță apropiată de timp real, pe lângă faptul că modelul este gata de antrenament pregătit pentru acei oameni, mașini și animale pe baza colecțiilor de la Flickr-the Faces-HQ (FFHQ, 70,000 de imagini PNG de înaltă calitate cu fețele oamenilor), The Stanford Cars (16 de imagini cu mașini) și AFHQ (fotografii cu animale).

În plus, este furnizat un set de instrumente pentru a vă instrui modeleleprecum și modele pregătite gata de utilizare ale codificatoarelor și generatoarelor tipice adecvate pentru utilizare cu acestea. De exemplu, există generatoare disponibile pentru crearea de imagini în stil Toonify, personaje Pixar, pentru crearea de schițe și chiar pentru stiluri precum prințesele Disney.

În cele din urmă pentru cei care sunt interesați să afle mai multe Despre acest instrument, puteți verifica detaliile În următorul link.

De asemenea, este important de menționat că codul este scris în Python folosind framework-ul PyTorch și este licențiat MIT. Puteți verifica codul la următorul link.

LinuxAdictos

HyperStyle, o adaptare a StyleGAN pentru editarea imaginilor

Lasă comentariul tău Anulați răspunsul