StyleGAN3, ang machine learning system para sa facial synthesis mula sa Nvidia

Kamakailan lamang Inilabas ng NVIDIA ang source code para sa StyleGAN3, isang sistema ng pag-aaral ng makina batay sa nakabuo ng salungat na mga neural network (GAN) upang mai-synthesize ang makatotohanang mga imahe ng mga mukha ng tao.

Sa StyleGAN3 ay magagamit upang mag-download ng mga sanay na sanay na sanay na sa pagsasanay Flickr-Faces-HQ (FFHQ), na nagsasama ng 70 libong mga imahe ng PNG ng mataas na kalidad na mga mukha ng tao (1024 × 1024). Bilang karagdagan, may mga modelo na itinayo batay sa mga koleksyon ng AFHQv2 (larawan ng mga mukha ng hayop) at Metfaces (mga larawan ng mga mukha ng tao mula sa klasikal na mga larawan sa pagpipinta).

Tungkol sa StyleGAN3

Disenyo nakatuon sa mga mukha, ngunit ang sistema ay maaaring sanayin upang makabuo ng anumang uri ng bagay, tulad ng mga landscape at kotse. Ano pa, ang mga tool ay ibinibigay para sa sariling pag-aaral ng neural network gamit ang iyong sariling mga koleksyon ng imahe. Nangangailangan ng isa o higit pang mga NVIDIA graphics card (Inirerekumenda ng Tesla V100 o A100 GPUs), hindi bababa sa 12GB ng RAM, PyTorch 1.9, at CUDA 11.1+ Toolkit. Upang matukoy ang artipisyal na likas na katangian ng mga natanggap na mukha, isang espesyal na detektor ang binuo.

Ang system Pinapayagan na synthesize ng isang imahe ng isang bagong mukha batay sa interpolation ng mga tampok ng maraming mga mukha, pinagsasama ang kanilang likas na mga tampok, bilang karagdagan sa pagbagay sa huling imahe sa kinakailangang edad, kasarian, haba ng buhok, character na ngiti, hugis ng ilong, kulay ng balat, baso, anggulo ng potograpiya.

Tagabuo tinatrato ang imahe bilang isang koleksyon ng mga estilo, awtomatikong pinaghihiwalay ang mga detalye ng katangian (freckles, buhok, baso) ng pangkalahatang mga katangiang mataas na antas (pustura, kasarian, mga pagbabago na nauugnay sa edad) at pinapayagan silang maging arbitraryong isama sa kahulugan ng mga nangingibabaw na pag-aari sa pamamagitan ng mga kadahilanan sa pagbibigat at bilang isang resulta, nabuo ang mga imahe na ang mga ito ay maliwanag na hindi makilala mula sa aktwal na mga litrato.

Ang unang bersyon ng teknolohiya ng StyleGAN (inilabas noong 2019), sinundan ng isang pinabuting bersyon ng StyleGAN2 noong 2020, na nagpapabuti sa kalidad ng imahe at nagtanggal ng ilang mga artifact. Sa parehong oras, ang sistema ay nanatiling static, iyon ay, hindi ito pinapayagan ang mga makatotohanang mga animasyon o paggalaw ng mukha. Kapag bumubuo ng StyleGAN3, ang pangunahing layunin ay upang maiangkop ang teknolohiya para magamit sa animasyon at video.

Gumagamit ang StyleGAN3 ng isang muling idisenyo na hindi pang-aliasing na arkitektura ng imagingNag-aalok ang ay ng mga bagong senaryo sa pagsasanay ng neural network at nagsasama rin ng mga bagong kagamitan para sa interactive na visualization (visualizer.py), pagsusuri (avg_spectra.py) at pagbuo ng video (gen_video.py). Binabawasan din ng pagpapatupad ang pagkonsumo ng memorya at pinapabilis ang proseso ng pag-aaral.

Ang isang pangunahing tampok ng arkitektura ng StyleGAN3 ay ang paglipat sa pagbibigay kahulugan ng lahat ng mga signal sa neural network sa anyo ng mga tuloy-tuloy na proseso, na naging posible upang manipulahin ang mga kamag-anak na posisyon sa pamamagitan ng pagbubuo ng mga bahagi, hindi nakatali sa ganap na mga koordinasyon ng mga indibidwal na mga pixel sa imahe, ngunit naayos sa ibabaw ng mga kinatawan ng mga bagay.

habang sa StyleGAN at StyleGAN2, ang pag-snap sa mga pixel sa panahon ng pagbuo ay sanhi ng mga isyu sa pag-render ng pabago-bagoHalimbawa naging lubos na angkop para sa pagbuo ng video.

Sa wakas, sulit ding banggitin ang anunsyo ng ang paglikha ng NVIDIA at Microsoft ng pinakamalaking modelo ng wika ng MT-NLG batay sa isang malalim na neural network na may »nababagong« arkitektura.

Saklaw ng modelo ang 530 bilyong mga parameter at isang pool ng 4480 GPUs ang ginamit para sa pagsasanay (560 DGX A100 server na may 8 A100 GPU na 80 GB bawat isa). Ang mga lugar ng aplikasyon ng modelo ay tinatawag na paglutas ng problema sa pagproseso ng impormasyon sa natural na wika, tulad ng paghula sa pagkumpleto ng isang hindi natapos na pangungusap, pagsagot sa mga katanungan, pag-unawa sa pagbasa, pagbubuo ng mga konklusyon sa natural na wika, at pag-aralan ang kalabuan ng kahulugan ng mga salita.

Kung interesado kang malaman ang tungkol dito, maaari mong suriin ang mga detalye ng StyleGAN3 Sa sumusunod na link.

LinuxAdictos

Ang StyleGAN3, ang sistema ng pag-aaral ng machine ni Nvidi para sa synthesis ng mukha

Tungkol sa StyleGAN3

Iwanan ang iyong puna Ikansela ang tugon