HyperStyle, en tilpasning af StyleGAN til billedredigering

Et team af Tel Aviv University-forskere udgav for nylig HyperStyle, som er en omvendt version maskinlæringssystem NVIDIA StyleGAN2 som er blevet redesignet for at genskabe de manglende stykker, når du redigerer optagelser fra den virkelige verden.

StyleGAN er kendetegnet ved at tillade syntese af nye ansigter af mennesker med et realistisk udseende, indstilling af parametre såsom alder, køn, hårlængde, smilekarakter, næseform, hudfarve, briller og fotografisk vinkel.

Endvidere HyperStyle gør det muligt at ændre lignende parametre i eksisterende, Med andre ord giver det dig mulighed for at skabe fotografier uden at ændre deres karakteristiske træk og bevare genkendeligheden af det originale ansigt.

HyperStyle introducerer hypernetværk for at lære at forfine vægten af en tidligere trænet StyleGAN-generator i forhold til et givet inputbillede. Dette muliggør rekonstruktioner på optimeringsniveau med indkoderlignende inferenstider og høj redigerbarhed.

For eksempel ved brug HyperStyle kan simulere en ændring i en persons alder på et fotografi, skift en frisure, tilføj briller, skæg eller overskæg, få et billede til at ligne en tegneseriefigur eller et håndtegnet billede, lav et trist eller glad ansigtsudtryk.

I dette tilfælde systemet kan trænes ikke kun til at ændre ansigter på mennesker, men også til enhver genstand, for for eksempel for at redigere bilbilleder.

De fleste af de værker, der studerer inversion, leder efter en latent kode, der rekonstruerer et bestemt billede med større præcision. Noget nyligt arbejde har foreslået finjustering af generatorvægte pr. billede for at opnå højkvalitetsrekonstruktion for et givet målbillede. Med HyperStyle er vores mål at bringe disse generator-tuning-tilgange til området for interaktive applikationer ved at tilpasse dem til en encoder-baseret tilgang.

Vi træner et enkelt hypernetværk for at lære at forfine generatorvægtene i forhold til et ønsket målbillede. Ved at lære denne kortlægning forudsiger HyperStyle effektivt ønskede generatorvægte på mindre end 2 sekunder pr. billede, hvilket gør den anvendelig til en bred vifte af applikationer.

Den foreslåede metode har til formål at løse problemet med at genopbygge manglende dele af et billede under redigering. Tidligere foreslåede teknikker har adresseret balancen mellem rekonstruktion og redigering ved at finjustere billedkameraet til at erstatte dele af målbilledet, mens de oprindeligt manglende redigerbare områder genskabes. Ulempen ved sådanne tilgange er behovet for langsigtet rettet træning af det neurale netværk for hvert billede.

Metoden baseret på StyleGAN-algoritmen gør det muligt at bruge en typisk model, foruddannet på almindelige billedsamlinger for at generere funktionselementer af det originale billede med et sikkerhedsniveau, der kan sammenlignes med algoritmer, der kræver individuel træning af modellen for hvert billede.

En af fordelene ved den nye metode er muligheden for at ændre billeder med ydeevne tæt på realtid, foruden modellen er klar til at træne forberedt til de mennesker, biler og dyr baseret på samlingerne fra Flickr-the Faces-HQ (FFHQ, 70,000 højkvalitets PNG-billeder af folks ansigter), The Stanford Cars (16 bilbilleder) og AFHQ (dyrefotos).

Derudover et sæt værktøjer leveres til at træne dine modeller, samt klar til brug trænede modeller af typiske indkodere og generatorer, der er egnede til brug med dem. For eksempel er der tilgængelige generatorer til at skabe billeder i stil med Toonify, Pixar-karakterer, skabe skitser og endda stilisere som Disney-prinsesser.

Endelig For dem, der er interesseret i at lære mere om dette værktøj, kan du tjekke detaljerne I det følgende link.

Det er også vigtigt at nævne, at koden er skrevet i Python ved hjælp af PyTorch-rammeværket og er licenseret under MIT-licensen. Du kan tjekke koden på følgende link.

LinuxAdictos

HyperStyle, en tilpasning af StyleGAN til billedredigering

Efterlad din kommentar Annuller svar