StyleGAN3, sustav strojnog učenja za sintezu lica tvrtke Nvidi

nedavno NVIDIA je objavila izvorni kod za StyleGAN3, sustav strojnog učenja temeljen na generativnim nepovoljnim neuronskim mrežama (GAN) za sintezu realnih slika ljudskih lica.

U StyleGAN3 dostupni su za preuzimanje već obučenih modela obučenih u zbirci Flickr-Faces-HQ (FFHQ), koji uključuje 70 tisuća PNG slika visokokvalitetnih ljudskih lica (1024 × 1024). Osim toga, postoje modeli izgrađeni na temelju zbirki AFHQv2 (fotografije lica životinja) i Metfaces (slike lica ljudi s portreta klasičnih slika).

O StyleGAN3

Dizajn fokusira se na lica, ali sustav se može osposobiti za generiranje bilo koje vrste objekata, poput krajolika i automobila. Što je više, osigurani su alati za samoučenje neuronske mreže koristeći vlastite zbirke slika. Zahtijeva jednu ili više NVIDIA grafičkih kartica (Preporučuju se grafički procesori Tesla V100 ili A100), najmanje 12 GB RAM -a, PyTorch 1.9 i CUDA 11.1+ Toolkit. Za utvrđivanje umjetne prirode primljenih lica razvija se poseban detektor.

Sustav omogućuje sintetiziranje slike novog lica na temelju interpolacije značajki nekoliko lica, kombinirajući njihove inherentne značajke, uz prilagođavanje konačne slike potrebnoj dobi, spolu, duljini kose, karakteru osmijeha, obliku nosa, boji kože, naočalama, fotografskom kutu.

Generator tretira sliku kao zbirku stilova, automatski odvaja karakteristične detalje (pjegice, kosa, naočale) općih atributa na visokoj razini (držanje, spol, promjene povezane s dobi) i omogućuje njihovo proizvoljno kombiniranje s definicijom dominantnih svojstava putem ponderirajućih čimbenika te da se kao rezultat dobivaju slike da su očito se ne razlikuju od stvarnih fotografija.

Prva verzija StyleGAN tehnologije (objavljena 2019.), nakon koje slijedi poboljšana verzija StyleGAN2 2020. godine, koja poboljšava kvalitetu slike i uklanja neke artefakte. Istodobno, sustav je ostao statičan, odnosno nije dopuštao realne animacije ili pokrete lica. Prilikom razvoja StyleGAN3, glavni cilj bio je prilagoditi tehnologiju za uporabu u animaciji i videu.

StyleGAN3 koristi redizajniranu arhitekturu za snimanje bez zamjenjivanjaay nudi nove scenarije obuke za neuronske mreže, a uključuje i nove alate za interaktivnu vizualizaciju (visualizer.py), analizu (avg_spectra.py) i generiranje videa (gen_video.py). Implementacija također smanjuje potrošnju memorije i ubrzava proces učenja.

Ključna značajka StyleGAN3 arhitekture bio je prijelaz na interpretaciju svih signala u neuronskoj mreži u obliku kontinuiranih procesa, što je omogućilo manipulaciju relativnim položajima formiranjem dijelova, koji nisu vezani za apsolutne koordinate pojedinih piksela u sliku, ali fiksiranu na površinu prikazanih objekata.

Dok u StyleGAN -u i StyleGAN2, pričvršćivanje na piksele tijekom izrade uzrokovalo je probleme s dinamičkim iscrtavanjemNa primjer, kada se slika kretala, došlo je do neslaganja malih detalja, poput bora i dlaka, za koje se činilo da se kreću odvojeno od ostatka slike lica, osim toga u StyleGAN3 ti su problemi riješeni, a tehnologija ima postali sasvim prikladni za stvaranje video zapisa.

Konačno, također vrijedno spomena najava o stvaranje NVIDIA-e i Microsofta najvećeg jezičkog modela MT-NLG temelji se na dubokoj neuronskoj mreži s »transformativnom« arhitekturom.

Model pokriva 530 milijardi parametara, a korišten je skup od 4480 GPU -a za obuku (560 DGX A100 poslužitelja s 8 A100 GPU -a od po 80 GB). Područja primjene modela nazivaju se rješavanjem problema obrade informacija u prirodnom jeziku, poput predviđanja dovršetka nedovršene rečenice, odgovaranja na pitanja, razumijevanja čitanja, oblikovanja zaključaka u prirodnom jeziku i analize nejasnoća značenja riječi.

Ako vas zanima više o tome, možete provjeriti pojedinosti o StyleGAN3 U sljedećem linku.

LinuxAdictos

StyleGAN3, Nvidijev sustav strojnog učenja za sintezu lica

O StyleGAN3

Ostavite svoj komentar Otkaži odgovor