HyperStyle, en tilpasning av StyleGAN for bilderedigering

Et team av Tel Aviv University-forskere avduket nylig HyperStyle, som er en omvendt versjon av maskinlæringssystemet NVIDIA StyleGAN2 som har blitt redesignet for å gjenskape manglende deler når du redigerer bilder fra den virkelige verden.

StyleGAN er preget av å tillate å syntetisere nye ansikter til mennesker med et realistisk utseende, innstillingsparametere som alder, kjønn, hårlengde, smilekarakter, neseform, hudfarge, briller og fotografisk vinkel.

Videre HyperStyle gjør det mulig å endre lignende parametere i eksisterende, Med andre ord lar den deg lage fotografier uten å endre deres karakteristiske trekk og bevare gjenkjenneligheten til det originale ansiktet.

HyperStyle introduserer hypernettverk for å lære å avgrense vektene til en tidligere trent StyleGAN-generator i forhold til et gitt inngangsbilde. Å gjøre det muliggjør gjenoppbygging av optimaliseringsnivåer med koderlignende slutningstider og høy redigerbarhet.

For eksempel ved bruk HyperStyle, kan simulere en endring i alderen til en person på et fotografi, endre en frisyre, legg til briller, skjegg eller bart, få et bilde til å se ut som en tegneseriefigur eller et håndtegnet bilde, lag et trist eller glad ansiktsuttrykk.

I dette tilfellet Systemet kan trenes ikke bare til å endre folks ansikter, men også for enhver gjenstand, for For eksempel for å redigere bilbilder.

De fleste verkene som studerer inversjon ser etter en latent kode som mer nøyaktig rekonstruerer et gitt bilde. Noen nyere arbeid har foreslått finjustering av generatorvekter for å oppnå høykvalitetsrekonstruksjon for et gitt målbilde. Med HyperStyle er målet vårt å bringe disse generatortilnærmingene til riket av interaktive applikasjoner ved å tilpasse dem til en koderbasert tilnærming.

Vi trente et enkelt hypernettverk for å lære å avgrense generatorvekter i forhold til et ønsket målbilde. Ved å lære denne kartleggingen forutsier HyperStyle effektivt generatorens målvekter på mindre enn 2 sekunder per bilde, noe som gjør den anvendelig for et bredt spekter av applikasjoner.

Den foreslåtte metoden har som mål å løse problemet med å rekonstruere manglende deler av et bilde under redigering. De tidligere foreslåtte teknikkene har adressert balansen mellom rekonstruksjon og redigering ved å finjustere bildeapparatet for å erstatte deler av målbildet mens de gjenskaper redigerbare områder som opprinnelig manglet. Ulempen med slike tilnærminger er behovet for langsiktig målrettet trening av det nevrale nettverket for hvert bilde.

Metoden basert på StyleGAN-algoritmen gjør det mulig å bruke en typisk modell, forhåndstrenet på vanlige bildesamlinger, for å generere karakteristiske elementer av originalbildet med et tillitsnivå som kan sammenlignes med algoritmer som krever individuell opplæring av modellen for hvert bilde.

En av fordelene med den nye metoden er muligheten til å modifisere bilder med en ytelse nær sanntid, i tillegg til at modellen er klar til å trene forberedt for de menneskene, bilene og dyrene basert på samlingene fra Flickr-the Faces-HQ (FFHQ, 70,000 16 høykvalitets PNG-bilder av folks ansikter), The Stanford Cars (XNUMX XNUMX bilder av biler) og AFHQ (bilder av dyr).

Videre et sett med verktøy er gitt for å trene modellene dinei tillegg til bruksklare opplærte modeller av typiske kodere og generatorer som er egnet for bruk med dem. For eksempel er det tilgjengelige generatorer for å lage bilder i Toonify-stil, Pixar-karakterer, lage skisser og til og med styling som Disney-prinsesser.

Endelig for de som er interessert i å vite mer Om dette verktøyet kan du sjekke detaljene I den følgende lenken.

Det er også viktig å nevne at koden er skrevet i Python ved hjelp av PyTorch-rammeverket og er MIT-lisensiert. Du kan sjekke koden på følgende lenke.

LinuxAdictos

HyperStyle, en tilpasning av StyleGAN for bilderedigering

Legg igjen kommentaren Avbryt svar