StyleGAN3, sistem strojnega učenja za sintezo obraza podjetja Nvidi

Pred kratkim NVIDIA je izdala izvorno kodo za StyleGAN3, sistem strojnega učenja, ki temelji na generativno škodljivih nevronskih omrežjih (GAN) za sintezo realističnih podob človeških obrazov.

V StyleGAN3 so na voljo za prenos pripravljenih modelov, usposobljenih v zbirki Flickr-Faces-HQ (FFHQ), ki vključuje 70 tisoč visokokakovostnih slik PNG človeških obrazov PNG (1024 × 1024). Poleg tega obstajajo modeli, zgrajeni na podlagi zbirk AFHQv2 (fotografije obrazov živali) in Metfaces (podobe obrazov ljudi iz klasičnih slikarskih portretov).

O StyleGAN3

Oblikovanje se osredotoča na obraze, vendar je sistem mogoče usposobiti za ustvarjanje katere koli vrste predmeta, kot pokrajine in avtomobili. Kaj je več, na voljo so orodja za samostojno učenje nevronske mreže z uporabo lastnih zbirk slik. Zahteva eno ali več grafičnih kartic NVIDIA (Priporočeni grafični procesorji Tesla V100 ali A100), vsaj 12 GB RAM -a, PyTorch 1.9 in CUDA 11.1+ Toolkit. Za določitev umetne narave prejetih obrazov se razvija poseben detektor.

Sistem omogoča sintetiziranje podobe novega obraza na podlagi interpolacije lastnosti več obrazov, ki združujejo njihove značilnosti in poleg prilagajanja končne slike zahtevani starosti, spolu, dolžini las, značaju nasmeha, obliki nosu, barvi kože, očalom, fotografskemu kotu.

Generator obravnava sliko kot zbirko slogov, samodejno loči značilne podrobnosti (pege, lasje, očala) splošnih atributov na visoki ravni (drža, spol, spremembe, povezane s starostjo) in omogoča njihovo poljubno kombinacijo z opredelitvijo prevladujočih lastnosti z utežnimi faktorji in posledično nastanejo slike, ki očitno se ne razlikujejo od dejanskih fotografij.

Prva različica tehnologije StyleGAN (izdana leta 2019), ki ji sledi izboljšana različica StyleGAN2 leta 2020, ki izboljša kakovost slike in odstrani nekatere artefakte. Hkrati je sistem ostal statičen, torej ni dovoljeval realističnih animacij ali gibov obraza. Pri razvoju StyleGAN3 je bil glavni cilj prilagoditi tehnologijo za uporabo v animaciji in videu.

StyleGAN3 uporablja preoblikovano arhitekturo slikanja, ki se ne ujemaay ponuja nove scenarije usposabljanja v nevronskih omrežjih in vključuje tudi nove pripomočke za interaktivno vizualizacijo (visualizer.py), analizo (avg_spectra.py) in ustvarjanje videa (gen_video.py). Izvedba tudi zmanjša porabo pomnilnika in pospeši učni proces.

Ključna značilnost arhitekture StyleGAN3 je bil prehod na interpretacijo vseh signalov v nevronskem omrežju v obliki neprekinjenih procesov, ki so omogočali manipulacijo relativnih položajev z oblikovanjem delov, ki niso vezani na absolutne koordinate posameznih slikovnih pik v sliko, vendar pritrjeno na površino predstavljenih predmetov.

Medtem ko je v StyleGAN in StyleGAN2 je zaskok na slikovne pike med sestavljanjem povzročil težave pri dinamičnem upodabljanjuna primer, ko se je slika premikala, je prišlo do neskladja majhnih podrobnosti, kot so gube in dlake, za katere se je zdelo, da se premikajo ločeno od preostale slike obraza, poleg tega pa so v StyleGAN3 te težave rešene in tehnologija ima postala zelo primerna za ustvarjanje videa.

Končno, velja omeniti tudi napoved o NVIDIA in Microsoft sta ustvarila največji jezikovni model MT-NLG temelji na globoki nevronski mreži s »transformativno« arhitekturo.

Model zajema 530 milijard parametrov, uporabljeno pa je bilo 4480 grafičnih procesorjev za usposabljanje (560 strežnikov DGX A100 z 8 grafičnimi procesorji A100 po 80 GB vsak). Področja uporabe modela se imenujejo reševanje problemov pri obdelavi informacij v naravnem jeziku, na primer napovedovanje dokončanja nedokončanega stavka, odgovarjanje na vprašanja, branje, razumevanje, oblikovanje zaključkov v naravnem jeziku in analiza dvoumnosti pomena besed.

Če vas zanima več o tem, lahko preverite podrobnosti o StyleGAN3 V naslednji povezavi.

LinuxAdictos

StyleGAN3, Nvidijev sistem strojnega učenja za sintezo obraza

O StyleGAN3

Pustite svoj komentar Prekliči odgovor