StyleGAN3, sistema d'aprenentatge automàtic per a la síntesi facial de Nvidi

fa poc NVIDIA va donar a conèixer el codi font de StyleGAN3, Un sistema d'aprenentatge automàtic basat en xarxes neuronals adverses generatives (GAN) per sintetitzar imatges realistes de rostres humans.

en StyleGAN3 estan disponibles per descarregar models entrenats preparats per utilitzar entrenats en la col·lecció Flickr-Faces-HQ (FFHQ), que inclou 70 mil imatges PNG de rostres humans d'alta qualitat (1024 × 1024). A més, hi ha models construïts sobre la base de les col·leccions AFHQv2 (fotografies de cares d'animals) i Metfaces (imatges de rostres de persones a partir de retrats de pintura clàssica).

sobre StyleGAN3

el disseny se centra en els rostres, però el sistema es pot entrenar per generar qualsevol tipus d'objecte, com paisatges i automòbils. A més, es proporcionen eines per a l'autoaprenentatge de la xarxa neuronal utilitzant les seves pròpies col·leccions d'imatges. Requereix una o més targetes gràfiques NVIDIA (Es recomanen les GPU Tesla V100 o A100), a l'almenys 12 GB de RAM, PyTorch 1.9 i el conjunt d'eines CUDA 11.1+. Per determinar la naturalesa artificial de les cares rebudes, s'està desenvolupant un detector especial.

el sistema permet sintetitzar una imatge d'un nou rostre d'acord amb la interpolació dels trets de diversos rostres, Combinant els seus trets inherents, a més d'adaptar la imatge final a l'edat requerida, gènere, llarg de cabell, caràcter de somriure, forma de nas, color de pell, ulleres, angle fotogràfic.

el generador considera la imatge com una col·lecció d'estils, separa automàticament els detalls característics (Pigues, cabell, ulleres) dels atributs generals d'alt nivell (postura, gènere, canvis relacionats amb l'edat) i permet combinar-los de manera arbitrària amb la definició de propietats dominants mitjançant factors de ponderació i que com a resultat, es generen imatges que són aparentment indistingibles de les fotografies reals.

La primera versió de la tecnologia StyleGAN (es va publicar en 2019), seguida d'una versió millorada de StyleGAN2 el 2020, que millora la qualitat de la imatge i elimina alguns artefactes. A el mateix temps, el sistema va romandre estàtic, és a dir no permetia animacions realistes ni moviments facials. A l'desenvolupar StyleGAN3, l'objectiu principal va ser adaptar la tecnologia per al seu ús en animació i vídeo.

StyleGAN3 utilitza una arquitectura de generació d'imatges sense aliasing rediseñadai ofereix nous escenaris d'entrenament de xarxes neuronals i que a més inclouen noves utilitats per a visualització interactiva (visualizer.py), anàlisi (avg_spectra.py) i generació de vídeo (gen_video.py). La implementació també redueix el consum de memòria i accelera el procés d'aprenentatge.

Una característica clau de l'arquitectura StyleGAN3 va ser la transició a la interpretació de tots els senyals a la xarxa neuronal en forma de processos continus, el que va fer possible poder manipular les posicions relatives a l'formar parts, no lligades a les coordenades absolutes de píxels individuals en la imatge, però fixada a la superfície dels objectes representats.

Mentres que en StyleGAN i StyleGAN2, l'ajust als píxels durant la generació provocar problemes amb el renderitzat dinàmic, Per exemple, quan la imatge s'estava movent, hi havia una manca de coincidència de petits detalls, com arrugues i pèls, que semblaven moure per separat de la resta de la imatge de la cara, a més que en StyleGAN3 aquests problemes es resolen i la tecnologia s'ha tornat bastant adequada per a la generació de vídeo.

Finalment, també val la pena esmentar l'anunci de la creació per part de NVIDIA i Microsoft d'el major model de llenguatge MT-NLG basat en una xarxa neuronal profunda amb una arquitectura »transformadora«.

El model cobreix 530 de paràmetres i es va utilitzar un grup de 4480 GPU per a l'entrenament (560 servidors DGX A100 amb 8 GPU A100 de 80 GB cadascun). Les àrees d'aplicació de el model s'anomenen solució de problemes de processament d'informació en llenguatge natural, com ara predir la finalització d'una oració inconclusa, respondre preguntes, comprensió de lectura, formar conclusions en llenguatge natural i analitzar l'ambigüitat de l'significat de les paraules .

Si estàs interessat en poder conèixer més a l'respecte, Pots consultar els detalls de StyleGAN3 en el següent enllaç.

LinuxAdictos

StyleGAN3, el sistema d'aprenentatge automàtic per a la síntesi facial de Nvidi

sobre StyleGAN3

Deixa el teu comentari Cancel lar la resposta