StyleGAN3, sistemi i mësimit të makinerisë i Nvidi për sintezën e fytyrës

kohët e fundit NVIDIA lëshoi ​​kodin burimor për StyleGAN3, një sistem i mësimit të makinerisë i bazuar në rrjete nervore negative negative (GAN) për të sintetizuar imazhe realiste të fytyrave të njerëzve.

Në StyleGAN3 janë në dispozicion për të shkarkuar modele të trajnuara të gatshme për përdorim të trajnuar në koleksion Flickr-Faces-HQ (FFHQ), e cila përfshin 70 mijë imazhe PNG me cilësi të lartë të fytyrave të njerëzve (1024 × 1024). Për më tepër, ekzistojnë modele të ndërtuara në bazë të koleksioneve AFHQv2 (fotografi të fytyrave të kafshëve) dhe Metfaces (imazhe të fytyrave të njerëzve nga portretet e pikturës klasike).

Rreth StyleGAN3

dizajni fokusohet në fytyra, por sistemi mund të trajnohet për të gjeneruar çdo lloj objekti, si peizazhe dhe makina. Cfare ka me shume, sigurohen mjete për vetë-mësimin e rrjetit nervor duke përdorur koleksionet tuaja të imazheve. Kërkon një ose më shumë karta grafike NVIDIA (Rekomandohen GPU Tesla V100 ose A100), të paktën 12 GB RAM, PyTorch 1.9 dhe CUDA 11.1+ Toolkit. Për të përcaktuar natyrën artificiale të fytyrave të marra, po zhvillohet një detektor i veçantë.

Sistemi lejon të sintetizojë një imazh të një fytyre të re bazuar në interpolimin e veçorive të disa fytyrave, duke kombinuar tiparet e tyre të qenësishme, përveç përshtatjes së imazhit përfundimtar me moshën, gjininë, gjatësinë e flokëve, karakterin e buzëqeshjes, formën e hundës, ngjyrën e lëkurës, syzet, këndin fotografik.

Gjenerator trajton imazhin si një koleksion stilesh, ndan automatikisht detajet karakteristike (freckles, flokët, syzet) e atributeve të përgjithshme të nivelit të lartë (qëndrimi, gjinia, ndryshimet e lidhura me moshën) dhe lejon që ato të kombinohen në mënyrë arbitrare me përcaktimin e pronave dominuese përmes faktorëve të peshimit dhe që si rezultat, gjenerohen imazhe që ato me sa duket nuk dallohen nga fotografitë aktuale.

Versioni i parë i teknologjisë StyleGAN (lëshuar në 2019), i ndjekur nga një version i përmirësuar i StyleGAN2 në 2020, i cili përmirëson cilësinë e figurës dhe heq disa objekte. Në të njëjtën kohë, sistemi mbeti statik, domethënë nuk lejoi animacione realiste ose lëvizje të fytyrës. Gjatë zhvillimit të StyleGAN3, qëllimi kryesor ishte përshtatja e teknologjisë për përdorim në animacion dhe video.

StyleGAN3 përdor një arkitekturë të ridizajnuar të imazhit jo aliazuesay ofron skenarë të rinj të trajnimit të rrjetit nervor dhe gjithashtu përfshin shërbime të reja për vizualizim ndërveprues (visualizer.py), analiza (avg_spectra.py) dhe gjenerim video (gen_video.py). Zbatimi gjithashtu zvogëlon konsumin e kujtesës dhe përshpejton procesin e të mësuarit.

Një tipar kryesor i arkitekturës StyleGAN3 ishte kalimi në interpretimin e të gjitha sinjaleve në rrjetin nervor në formën e proceseve të vazhdueshme, të cilat bënë të mundur manipulimin e pozicioneve relative duke formuar pjesë, jo të lidhura me koordinatat absolute të pikselave individualë në imazh, por i fiksuar në sipërfaqen e objekteve të përfaqësuara.

Mientras que në StyleGAN dhe StyleGAN2, kapja në piksele gjatë ndërtimit shkaktoi probleme me interpretimin dinamikpër shembull, kur imazhi po lëvizte, kishte një mospërputhje të detajeve të vogla, të tilla si rrudhat dhe qimet, të cilat dukej se lëviznin veçmas nga pjesa tjetër e imazhit të fytyrës, përveç asaj në StyleGAN3 këto probleme janë zgjidhur dhe teknologjia ka bëhen mjaft të përshtatshme për krijimin e videove.

Së fundi, gjithashtu vlen të përmendet shpalljen e krijimi nga NVIDIA dhe Microsoft i modelit më të madh të gjuhës MT-NLG bazuar në një rrjet nervor të thellë me një arkitekturë »transformuese«.

Modeli mbulon 530 miliardë parametra dhe u përdor një grup 4480 GPU për trajnim (560 serverë DGX A100 me 8 GPU A100 prej 80 GB secila). Fushat e zbatimit të modelit quhen zgjidhja e problemeve të përpunimit të informacionit në gjuhën natyrore, të tilla si parashikimi i përfundimit të një fjalie të papërfunduar, përgjigja e pyetjeve, leximi i të kuptuarit, formimi i përfundimeve në gjuhën natyrore dhe analizimi i paqartësisë së kuptimit të fjalëve..

Nëse jeni të interesuar të dini më shumë rreth kësaj, mund të kontrolloni detajet e StyleGAN3 Në lidhjen vijuese.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: AB Internet Networks 2008 SL
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.