StyleGAN3, sistemul de învățare automată pentru sinteza facială de la Nvidi

recent NVIDIA a lansat codul sursă pentru StyleGAN3, un sistem de învățare automată bazat pe rețele neuronale adverse generative (GAN) pentru a sintetiza imagini realiste ale fețelor umane.

În StyleGAN3 sunt disponibile pentru a descărca modele pregătite gata de utilizare instruite în colecție Flickr-Faces-HQ (FFHQ), care include 70 de mii de imagini PNG de înaltă calitate ale fețelor umane (1024 × 1024). În plus, există modele construite pe baza colecțiilor AFHQv2 (fotografii ale fețelor de animale) și Metfaces (imagini ale fețelor oamenilor din portrete de pictură clasică).

Despre StyleGAN3

desen se concentrează pe fețe, dar sistemul poate fi antrenat pentru a genera orice tip de obiect, precum peisaje și mașini. Mai mult, sunt furnizate instrumente pentru autoînvățarea rețelei neuronale folosind propriile colecții de imagini. Necesită una sau mai multe plăci grafice NVIDIA (GPU-urile Tesla V100 sau A100 recomandate), cel puțin 12 GB RAM, PyTorch 1.9 și CUDA 11.1+ Toolkit. Pentru a determina natura artificială a fețelor primite, se dezvoltă un detector special.

Sistemul permite sintetizarea unei imagini a unei fețe noi pe baza interpolării caracteristicilor mai multor fețe, combinând caracteristicile lor inerente, pe lângă adaptarea imaginii finale la vârsta, sexul, lungimea părului, caracterul zâmbetului, forma nasului, culoarea pielii, ochelarii, unghiul fotografic.

Generatorul tratează imaginea ca o colecție de stiluri, separă automat detaliile caracteristice (pistrui, păr, ochelari) ale atributelor generale la nivel înalt (postură, sex, modificări legate de vârstă) și le permite să fie combinate în mod arbitrar cu definirea proprietăților dominante prin factori de ponderare și că, ca rezultat, sunt generate imagini care aparent nu se pot distinge de fotografiile reale.

Prima versiune a tehnologiei StyleGAN (lansată în 2019), urmată de o versiune îmbunătățită a StyleGAN2 în 2020, care îmbunătățește calitatea imaginii și elimină unele artefacte. În același timp, sistemul a rămas static, adică nu a permis animații realiste sau mișcări faciale. La dezvoltarea StyleGAN3, obiectivul principal a fost adaptarea tehnologiei pentru utilizare în animație și video.

StyleGAN3 utilizează o arhitectură de imagini non-aliasing reproiectatăay oferă noi scenarii de formare a rețelei neuronale și include, de asemenea, noi utilități pentru vizualizare interactivă (visualizer.py), analiză (avg_spectra.py) și generare video (gen_video.py). Implementarea reduce, de asemenea, consumul de memorie și accelerează procesul de învățare.

O caracteristică cheie a arhitecturii StyleGAN3 a fost tranziția la interpretarea tuturor semnalelor din rețeaua neuronală sub formă de procese continue, care a făcut posibilă manipularea pozițiilor relative prin formarea de părți, ne legate de coordonatele absolute ale pixelilor individuali din imagine, dar fixată pe suprafața obiectelor reprezentate.

În timp ce în StyleGAN și StyleGAN2, fixarea la pixeli în timpul compilării a cauzat probleme cu redarea dinamicăde exemplu, când imaginea se mișca, a existat o nepotrivire cu mici detalii, cum ar fi ridurile și firele de păr, care păreau să se miște separat de restul imaginii feței, în plus față de cea din StyleGAN3, aceste probleme sunt rezolvate și tehnologia devin destul de potrivite pentru generarea de videoclipuri.

În cele din urmă, merită de asemenea menționat anunțul de crearea de către NVIDIA și Microsoft a celui mai mare model de limbaj MT-NLG bazată pe o rețea neuronală profundă cu o arhitectură »transformatoare«.

Modelul acoperă 530 miliarde de parametri și a fost utilizat un grup de 4480 GPU-uri pentru instruire (560 servere DGX A100 cu 8 GPU-uri A100 de 80 GB fiecare). Domeniile de aplicare a modelului se numesc rezolvarea problemelor de prelucrare a informațiilor în limbaj natural, cum ar fi prezicerea completării unei propoziții neterminate, răspunsuri la întrebări, citirea înțelegerii, formarea concluziilor în limbajul natural și analiza ambiguității sensului cuvintelor.

Dacă sunteți interesat să aflați mai multe despre asta, puteți verifica detaliile StyleGAN3 În următorul link.

LinuxAdictos

StyleGAN3, sistemul de învățare automată Nvidi pentru sinteza feței

Despre StyleGAN3

Lasă comentariul tău Anulați răspunsul