StyleGAN3, mašininio mokymosi sistema veido sintezei iš Nvidi

Neseniai NVIDIA išleido „StyleGAN3“ šaltinio kodą, mašinų mokymosi sistema, pagrįsta generatyviniais neigiamais neuronų tinklais (GAN), skirta sintezuoti tikroviškus žmogaus veidų vaizdus.

„StyleGAN3“ galima atsisiųsti paruoštus naudoti kolekcijoje apmokytus modelius „Flickr-Faces-HQ“ (FFHQ), į kurį įeina 70 tūkstančių aukštos kokybės PNG žmonių veidų vaizdų (1024 × 1024). Be to, yra modelių, sukurtų remiantis AFHQv2 (gyvūnų veidų nuotraukos) ir Metfaces (žmonių veidų vaizdai iš klasikinių tapybos portretų) kolekcijomis.

Apie „StyleGAN3“

Dizainas sutelkia dėmesį į veidus, tačiau sistemą galima išmokyti generuoti bet kokio tipo objektus, kaip peizažai ir automobiliai. Kas daugiau, pateikiamos priemonės savarankiškam neuroninio tinklo mokymuisi naudojant savo nuotraukų kolekcijas. Reikalinga viena ar kelios NVIDIA vaizdo plokštės (Rekomenduojami „Tesla V100“ arba „A100“ GPU), mažiausiai 12 GB RAM, „PyTorch 1.9“ ir „CUDA 11.1+ Toolkit“. Norint nustatyti dirbtinį gaunamų veidų pobūdį, kuriamas specialus detektorius.

Sistema leidžia susintetinti naujo veido atvaizdą, remiantis kelių veidų bruožų interpoliacija, derinant jiems būdingas savybes, be to, galutinį vaizdą reikia pritaikyti prie reikiamo amžiaus, lyties, plaukų ilgio, šypsenos charakterio, nosies formos, odos spalvos, akinių, fotografavimo kampo.

Generatorius vaizdą traktuoja kaip stilių rinkinį, automatiškai atskiria būdingas detales (strazdanos, plaukai, akiniai) bendrųjų aukšto lygio atributų (laikysena, lytis, su amžiumi susiję pokyčiai) ir leidžia juos savavališkai derinti su dominuojančių savybių apibrėžimu, naudojant svorio koeficientus, todėl gaunami vaizdai, jie, matyt, nesiskiria nuo tikrųjų nuotraukų.

Pirmoji „StyleGAN“ technologijos versija (išleista 2019 m.), Vėliau - patobulinta „StyleGAN2“ versija 2020 m., Kuri pagerina vaizdo kokybę ir pašalina kai kuriuos artefaktus. Tuo pačiu metu sistema išliko statiška, tai yra, ji neleido realių animacijų ar veido judesių. Kuriant „StyleGAN3“ pagrindinis tikslas buvo pritaikyti technologiją, skirtą animacijai ir vaizdo įrašams.

„StyleGAN3“ naudojama naujai sukurta nepakeičiama vaizdo architektūraay siūlo naujus neuronų tinklo mokymo scenarijus, taip pat apima naujas interaktyvios vizualizacijos (visualizer.py), analizės (avg_spectra.py) ir vaizdo įrašų generavimo (gen_video.py) priemones. Diegimas taip pat sumažina atminties suvartojimą ir pagreitina mokymosi procesą.

Pagrindinis „StyleGAN3“ architektūros bruožas buvo perėjimas prie visų nervų tinklo signalų aiškinimo nuolatinių procesų pavidalu, o tai leido manipuliuoti santykinėmis padėtimis, formuojant dalis, nesusietas su absoliučiomis atskirų vaizdo taškų koordinatėmis, bet pritvirtintas prie vaizduojamų objektų paviršiaus.

O naudojant „StyleGAN“ ir „StyleGAN2“, spragtelėjimas į pikselius kūrimo metu sukėlė problemų dėl dinaminio atvaizdavimoPvz., Kai vaizdas judėjo, neatitiko smulkių detalių, tokių kaip raukšlės ir plaukai, kurie atrodė judantys atskirai nuo likusio veido vaizdo, be to, naudojant „StyleGAN3“, šios problemos išspręstos ir technologija tapo gana tinkamas vaizdo įrašams kurti.

Galiausiai, taip pat verta paminėti paskelbimas apie NVIDIA ir „Microsoft“ sukūrė didžiausią MT-NLG kalbos modelį pagrįstas giliu neuronų tinklu, turinčiu „transformuojančią“ architektūrą.

Modelis apima 530 milijardų parametrų ir buvo naudojamas 4480 GPU mokymui (560 DGX A100 serverių su 8 A100 GPU, kurių kiekviena yra 80 GB). Modelio taikymo sritys vadinamos informacijos apdorojimo problemų sprendimu natūralia kalba, pavyzdžiui, numatyti nebaigto sakinio užbaigimą, atsakyti į klausimus, suprasti tekstą, padaryti išvadas natūralia kalba ir analizuoti žodžių reikšmės dviprasmiškumą.

Jei norite sužinoti apie tai daugiau, galite patikrinti „StyleGAN3“ išsamią informaciją Šioje nuorodoje.

LinuxAdictos

StyleGAN3, „Nvidi“ mašinų mokymosi sistema veido sintezei

Apie „StyleGAN3“

Palikite komentarą Atšaukti atsakymą