StyleGAN3, Nvidi's machine learning-systeem voor gezichtssynthese

onlangs NVIDIA heeft de broncode vrijgegeven voor StyleGAN3, een machine learning-systeem op basis van generatieve ongunstige neurale netwerken (GAN) om realistische beelden van menselijke gezichten te synthetiseren.

In stijlGAN3 zijn beschikbaar om kant-en-klare getrainde modellen te downloaden die zijn getraind in de collectie Flickr-Faces-HQ (FFHQ), met 70 duizend PNG-afbeeldingen van hoogwaardige menselijke gezichten (1024 × 1024). Daarnaast zijn er modellen gebouwd op basis van de collecties AFHQv2 (foto's van dierengezichten) en Metfaces (afbeeldingen van gezichten van mensen uit klassieke schilderportretten).

Over StyleGAN3

het ontwerp richt zich op gezichten, maar het systeem kan worden getraind om elk type object te genereren, zoals landschappen en auto's. Bovendien, tools zijn voorzien voor zelfleren van het neurale netwerk uw eigen beeldcollecties gebruiken. Vereist een of meer NVIDIA grafische kaarten (Tesla V100 of A100 GPU's aanbevolen), minimaal 12 GB RAM, PyTorch 1.9 en CUDA 11.1+ Toolkit. Om de kunstmatige aard van de ontvangen gezichten te bepalen, wordt een speciale detector ontwikkeld.

Het systeem maakt het mogelijk om een ​​afbeelding van een nieuw gezicht te synthetiseren op basis van de interpolatie van de kenmerken van verschillende gezichten, door hun inherente kenmerken te combineren, naast het aanpassen van het uiteindelijke beeld aan de vereiste leeftijd, geslacht, haarlengte, glimlachkarakter, neusvorm, huidskleur, bril, fotografische hoek.

Generator behandelt de afbeelding als een verzameling stijlen, scheidt automatisch de karakteristieke details (sproeten, haar, bril) van de algemene kenmerken op hoog niveau (houding, geslacht, leeftijdsgerelateerde veranderingen) en maakt het mogelijk deze willekeurig te combineren met de definitie van dominante eigenschappen door middel van wegingsfactoren en dat als resultaat beelden worden gegenereerd die ze zijn blijkbaar niet te onderscheiden van echte foto's.

De eerste versie van StyleGAN-technologie (uitgebracht in 2019), gevolgd door een verbeterde versie van StyleGAN2 in 2020, die de beeldkwaliteit verbetert en enkele artefacten verwijdert. Tegelijkertijd bleef het systeem statisch, dat wil zeggen dat het geen realistische animaties of gezichtsbewegingen toestond. Bij de ontwikkeling van StyleGAN3 was het belangrijkste doel om de technologie aan te passen voor gebruik in animatie en video.

StyleGAN3 maakt gebruik van een opnieuw ontworpen niet-aliasing imaging-architectuuray biedt nieuwe trainingsscenario's voor neurale netwerken en bevat ook nieuwe hulpprogramma's voor interactieve visualisatie (visualizer.py), analyse (avg_spectra.py) en videogeneratie (gen_video.py). De implementatie vermindert ook het geheugengebruik en versnelt het leerproces.

Een belangrijk kenmerk van de StyleGAN3-architectuur was de overgang naar het interpreteren van alle signalen in het neurale netwerk in de vorm van continue processen, waardoor het mogelijk werd om relatieve posities te manipuleren door delen te vormen, niet gebonden aan de absolute coördinaten van individuele pixels in het beeld, maar vastgemaakt aan het oppervlak van de weergegeven objecten.

Terwijl in StyleGAN en StyleGAN2 veroorzaakte het snappen naar pixels tijdens het bouwen problemen met dynamische weergaveToen het beeld bijvoorbeeld bewoog, was er een mismatch van kleine details, zoals rimpels en haren, die los van de rest van het gezichtsbeeld leken te bewegen, naast dat in StyleGAN3 zijn deze problemen opgelost en heeft de technologie heel geschikt worden voor het genereren van video's.

Tenslotte ook het vermelden waard de aankondiging van de creatie door NVIDIA en Microsoft van het grootste MT-NLG-taalmodel gebaseerd op een diep neuraal netwerk met een »transformatieve« architectuur.

Het model dekt 530 miljard parameters en er werd een pool van 4480 GPU's gebruikt voor training (560 DGX A100-servers met 8 A100 GPU's van elk 80 GB). De toepassingsgebieden van het model worden het oplossen van informatieverwerkingsproblemen in natuurlijke taal genoemd, zoals het voorspellen van de voltooiing van een onvoltooide zin, het beantwoorden van vragen, begrijpend lezen, het vormen van conclusies in natuurlijke taal en het analyseren van de dubbelzinnigheid van de betekenis van woorden.

Als je er meer over wilt weten, u kunt de details van StyleGAN3 controleren: In de volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: AB Internet Networks 2008 SL
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.