StyleGAN3, Nvidis maskininlärningssystem för ansiktssyntes

nyligen NVIDIA släppte källkoden för StyleGAN3, ett generativt negativt neuralt nätverk (GAN)-baserat maskininlärningssystem för att syntetisera realistiska bilder av mänskliga ansikten.

I StyleGAN3 färdiga utbildade modeller finns att ladda ner i samlingen Flickr-Faces-HQ (FFHQ), som inkluderar 70 1024 högkvalitativa (1024×2) PNG-bilder av mänskliga ansikten. Dessutom finns det modeller byggda på basis av samlingarna AFHQvXNUMX (fotografier av djuransikten) och Metfaces (bilder av människors ansikten från klassiska porträttmålningar).

Om StyleGAN3

utformning fokuserar på ansikten, men systemet kan tränas för att generera alla typer av objekt, som landskap och bilar. Förutom, verktyg tillhandahålls för självinlärning av det neurala nätverket använda dina egna bildsamlingar. Kräver ett eller flera NVIDIA-grafikkort (Tesla V100 eller A100 GPU rekommenderas), minst 12 GB RAM, PyTorch 1.9 och CUDA Toolkit 11.1+. För att bestämma den artificiella naturen hos de mottagna ansiktena utvecklas en speciell detektor.

Systemet gör det möjligt att syntetisera en bild av ett nytt ansikte baserat på interpoleringen av funktionerna hos flera ansikten, som kombinerar deras inneboende egenskaper, samt anpassar den slutliga bilden till önskad ålder, kön, hårlängd, leende karaktär, näsform, hudfärg, glasögon, fotografisk vinkel.

Generator betraktar bilden som en samling stilar, separerar automatiskt de karakteristiska detaljerna (fräknar, hår, glasögon) av de allmänna attributen på hög nivå (hållning, kön, åldersrelaterade förändringar) och gör det möjligt att kombinera dem godtyckligt med definitionen av dominerande egenskaper med hjälp av viktningsfaktorer och att som ett resultat genereras bilder som de går tydligen inte att skilja från faktiska fotografier.

Den första versionen av StyleGAN-tekniken (släpptes 2019), följt av en förbättrad version av StyleGAN2 2020, som förbättrar bildkvaliteten och tar bort vissa artefakter. Samtidigt förblev systemet statiskt, det vill säga det tillät inte realistiska animationer eller ansiktsrörelser. När StyleGAN3 utvecklades var huvudmålet att anpassa tekniken för användning i animation och video.

StyleGAN3 använder en omdesignad aliasingfri bildarkitektur.ay erbjuder nya utbildningsscenarier för neurala nätverk och inkluderar även nya verktyg för interaktiv visualisering (visualizer.py), analys (avg_spectra.py) och videogenerering (gen_video.py). Implementeringen minskar också minnesförbrukningen och påskyndar inlärningsprocessen.

En nyckelfunktion i StyleGAN3-arkitekturen var övergången till tolkningen av alla signaler i det neurala nätverket i form av kontinuerliga processer, vilket gjorde det möjligt att manipulera relativa positioner genom att bilda delar, inte bundna till de absoluta koordinaterna för enskilda pixlar i bild, men fixerad till ytan av de representerade objekten.

Medan i StyleGAN och StyleGAN2 orsakade knäppning till pixlar under rendering problem med dynamisk renderingTill exempel, när bilden rörde sig, var det en obalans mellan små detaljer som rynkor och hårstrån som verkade röra sig separat från resten av ansiktsbilden, plus i StyleGAN3 är dessa problem lösta och tekniken har blivit ganska lämplig för videogenerering .

Slutligen, också värt att nämna tillkännagivandet av skapandet av NVIDIA och Microsoft av den största MT-NLG-språkmodellen baserat på ett djupt neuralt nätverk med en "transformativ" arkitektur.

Modellen täcker 530 miljarder parametrar och en grupp på 4480 GPU:er användes för träning (560 DGX A100-servrar med 8 A100 GPUs på 80 GB vardera). Tillämpningsområdena för modellen kallas för problemlösning för bearbetning av naturligt språk, såsom att förutsäga fullbordandet av en ofullbordad mening, svara på frågor, läsförståelse, dra slutsatser i naturligt språk och analysera ordbetydande tvetydigheter.

Om du är intresserad av att veta mer om det, kan du kontrollera detaljerna för StyleGAN3 I följande länk.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för data: AB Internet Networks 2008 SL
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.