StyleGAN3, Nvidi mašīnmācīšanās sistēma sejas sintēzei

Nesen NVIDIA izlaida StyleGAN3 avota kodu, mašīnmācīšanās sistēma, kuras pamatā ir ģeneratīvi nelabvēlīgi neironu tīkli (GAN), lai sintezētu reālus cilvēku seju attēlus.

StilāGAN3 ir pieejami, lai lejupielādētu kolekcijā apmācītus lietošanai gatavus apmācītus modeļus Flickr-Faces-HQ (FFHQ), kas ietver 70 tūkstošus augstas kvalitātes PNG cilvēku cilvēku attēlu (1024 × 1024). Turklāt ir modeļi, kas veidoti, pamatojoties uz AFHQv2 (dzīvnieku seju fotogrāfijas) un Metfaces (cilvēku seju attēli no klasiskās glezniecības portretiem) kolekcijām.

Par StyleGAN3

Dizains koncentrējas uz sejām, bet sistēmu var apmācīt ģenerēt jebkura veida objektus, kā ainavas un automašīnas. Kas vēl, ir paredzēti rīki neironu tīkla pašmācībai izmantojot savas attēlu kolekcijas. Nepieciešama viena vai vairākas NVIDIA grafikas kartes (Ieteicams Tesla V100 vai A100 GPU), vismaz 12 GB RAM, PyTorch 1.9 un CUDA 11.1+ rīkkopa. Lai noteiktu saņemto seju mākslīgo raksturu, tiek izstrādāts īpašs detektors.

Sistēma ļauj sintezēt jaunas sejas attēlu, pamatojoties uz vairāku seju iezīmju interpolāciju, apvienojot to raksturīgās iezīmes, papildus gala attēla pielāgošanai nepieciešamajam vecumam, dzimumam, matu garumam, smaida raksturam, deguna formai, ādas krāsai, brillēm, fotografēšanas leņķim.

Ģenerators traktē attēlu kā stilu kolekciju, automātiski atdala raksturīgās detaļas (vasaras raibumi, mati, brilles) no vispārējiem augsta līmeņa atribūtiem (stāja, dzimums, ar vecumu saistītas izmaiņas) un ļauj tos patvaļīgi apvienot ar dominējošo īpašību definīciju, izmantojot svēršanas faktorus, un rezultātā tiek ģenerēti attēli, kas tās acīmredzot neatšķiras no faktiskajām fotogrāfijām.

Pirmā StyleGAN tehnoloģijas versija (izlaista 2019. gadā), kam seko uzlabota StyleGAN2 versija 2020. gadā, kas uzlabo attēla kvalitāti un noņem dažus artefaktus. Tajā pašā laikā sistēma palika statiska, tas ir, tā nepieļāva reālistiskas animācijas vai sejas kustības. Izstrādājot StyleGAN3, galvenais mērķis bija pielāgot tehnoloģiju izmantošanai animācijā un video.

StyleGAN3 izmanto pārveidotu bezveidojošu attēlveidošanas arhitektūruay piedāvā jaunus neironu tīkla apmācības scenārijus, kā arī jaunas utilītas interaktīvai vizualizācijai (visualizer.py), analīzei (avg_spectra.py) un video ģenerēšanai (gen_video.py). Īstenošana arī samazina atmiņas patēriņu un paātrina mācību procesu.

StyleGAN3 arhitektūras galvenā iezīme bija pāreja uz visu signālu interpretāciju neironu tīklā nepārtrauktu procesu veidā, kas ļāva manipulēt ar relatīvajām pozīcijām, veidojot detaļas, kas nav saistītas ar atsevišķu pikseļu absolūtajām koordinātām attēls, bet piestiprināts pie attēloto objektu virsmas.

kamēr StyleGAN un StyleGAN2, noklikšķinot uz pikseļiem veidošanas laikā, radās problēmas ar dinamisku renderēšanupiemēram, kad attēls kustējās, bija neatbilstība sīkām detaļām, piemēram, grumbām un matiem, kas, šķiet, pārvietojās atsevišķi no pārējā sejas attēla, turklāt StyleGAN3 programmā šīs problēmas ir atrisinātas un tehnoloģija ir kļuvis diezgan piemērots video ģenerēšanai.

Visbeidzot, arī pieminēšanas vērts paziņojums par NVIDIA un Microsoft izveidoja lielāko MT-NLG valodas modeli pamatojoties uz dziļu neironu tīklu ar »pārveidojošu» arhitektūru.

Modelis aptver 530 miljardus parametru, un tika izmantots 4480 GPU kopums apmācībai (560 DGX A100 serveri ar 8 A100 GPU pa 80 GB katrā). Modeļa pielietojuma jomas sauc par dabiskās valodas informācijas apstrādes problēmu risināšanu, piemēram, nepabeigta teikuma pabeigšanas prognozēšana, atbildēšana uz jautājumiem, lasīšanas izpratne, secinājumu veidošana dabiskā valodā un vārdu nozīmes neskaidrības analīze.

Ja jūs interesē uzzināt vairāk par to, varat pārbaudīt StyleGAN3 informāciju Šajā saitē.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: AB Internet Networks 2008 SL
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.