StyleGAN3, il sistema di apprendimento automatico per la sintesi facciale di Nvidi

recentemente NVIDIA ha rilasciato il codice sorgente per StyleGAN3, un sistema di apprendimento automatico basato su reti neurali avverse generative (GAN) per sintetizzare immagini realistiche di volti umani.

In stileGAN3 sono disponibili per il download di modelli addestrati pronti per l'uso addestrati nella collezione Flickr-Faces-HQ (FFHQ), che include 70 mila immagini PNG di volti umani di alta qualità (1024 × 1024). Inoltre, ci sono modelli costruiti sulla base delle collezioni AFHQv2 (fotografie di volti di animali) e Metfaces (immagini di volti di persone da ritratti di dipinti classici).

Informazioni su StyleGAN3

il design si concentra sui volti, ma il sistema può essere addestrato a generare qualsiasi tipo di oggetto, come paesaggi e automobili. Cosa c'è di più, sono forniti strumenti per l'autoapprendimento della rete neurale utilizzando le tue raccolte di immagini. Richiede una o più schede grafiche NVIDIA (Consigliate GPU Tesla V100 o A100), almeno 12 GB di RAM, PyTorch 1.9 e CUDA 11.1+ Toolkit. Per determinare la natura artificiale dei volti ricevuti, è in fase di sviluppo uno speciale rilevatore.

il sistema permette di sintetizzare l'immagine di un nuovo volto basandosi sull'interpolazione dei lineamenti di più volti, combinando le loro caratteristiche intrinseche, oltre ad adattare l'immagine finale all'età, al sesso, alla lunghezza dei capelli, al carattere del sorriso, alla forma del naso, al colore della pelle, agli occhiali, all'angolazione fotografica richiesti.

Il generatore tratta l'immagine come una raccolta di stili, separa automaticamente i dettagli caratteristici (lentiggini, capelli, occhiali) degli attributi generali di alto livello (postura, sesso, cambiamenti legati all'età) e consente di combinarli arbitrariamente con la definizione di proprietà dominanti attraverso fattori di ponderazione e che di conseguenza vengono generate immagini che sono apparentemente indistinguibili dalle fotografie reali.

La prima versione della tecnologia StyleGAN (rilasciata nel 2019), seguita da una versione migliorata di StyleGAN2 nel 2020, che migliora la qualità dell'immagine e rimuove alcuni artefatti. Allo stesso tempo, il sistema è rimasto statico, cioè non ha permesso animazioni realistiche o movimenti facciali. Durante lo sviluppo di StyleGAN3, l'obiettivo principale era adattare la tecnologia per l'uso in animazione e video.

StyleGAN3 utilizza un'architettura di imaging senza alias riprogettataay offre nuovi scenari di formazione della rete neurale e include anche nuove utilità per la visualizzazione interattiva (visualizer.py), l'analisi (avg_spectra.py) e la generazione di video (gen_video.py). L'implementazione riduce anche il consumo di memoria e accelera il processo di apprendimento.

Una caratteristica fondamentale dell'architettura StyleGAN3 è stata la transizione all'interpretazione di tutti i segnali nella rete neurale sotto forma di processi continui, che hanno permesso di manipolare posizioni relative formando parti, non legate alle coordinate assolute dei singoli pixel nel immagine, ma fissata alla superficie degli oggetti rappresentati.

Mentre in StyleGAN e StyleGAN2, lo snap ai pixel durante la costruzione ha causato problemi con il rendering dinamicoAd esempio, quando l'immagine era in movimento, c'era una mancata corrispondenza di piccoli dettagli, come rughe e peli, che sembravano muoversi separatamente dal resto dell'immagine del viso, oltre a quello in StyleGAN3 questi problemi sono risolti e la tecnologia ha diventare abbastanza adatto per la generazione di video.

Infine, degno di nota anche l'annuncio di la creazione da parte di NVIDIA e Microsoft del più grande modello di linguaggio MT-NLG basato su una rete neurale profonda con un'architettura »trasformativa«.

Il modello copre 530 miliardi di parametri ed è stato utilizzato un pool di 4480 GPU per la formazione (560 server DGX A100 con 8 GPU A100 da 80 GB ciascuna). Le aree di applicazione del modello sono chiamate risoluzione dei problemi di elaborazione delle informazioni in linguaggio naturale, come la previsione del completamento di una frase incompiuta, la risposta a domande, la comprensione della lettura, la formazione di conclusioni in linguaggio naturale e l'analisi dell'ambiguità del significato delle parole.

Se sei interessato a saperne di più, puoi controllare i dettagli di StyleGAN3 nel seguente link

LinuxAdictos

StyleGAN3, il sistema di apprendimento automatico di Nvidi per la sintesi facciale

Informazioni su StyleGAN3

Lascia un tuo commento Annulla risposta