StyleGAN3, Nvidin koneoppimisjärjestelmä kasvojen synteesille

äskettäin NVIDIA julkaisi StyleGAN3: n lähdekoodin, koneoppimisjärjestelmä, joka perustuu generatiivisiin haitallisiin hermoverkkoihin (GAN) syntetisoimaan realistisia kuvia ihmisten kasvoista.

StyleGAN3: ssa ovat ladattavissa kokoelmaan koulutettuja käyttövalmiita koulutettuja malleja Flickr-Faces-HQ (FFHQ), joka sisältää 70 tuhatta korkealaatuista PNG-kuvaa ihmisten kasvoista (1024 × 1024). Lisäksi on olemassa malleja, jotka on rakennettu AFHQv2 (valokuvia eläinten kasvoista) ja Metfaces (kuvat ihmisten kasvoista klassisen maalauksen muotokuvista) kokoelmien perusteella.

Tietoja StyleGAN3: sta

Suunnittelu keskittyy kasvoihin, mutta järjestelmä voidaan opettaa luomaan minkä tahansa tyyppisiä esineitä, kuten maisemat ja autot. Lisäksi, työkaluja tarjotaan hermoverkon itseoppimiseen käyttämällä omia kuvakokoelmiasi. Vaatii yhden tai useamman NVIDIA -näytönohjaimen (Tesla V100- tai A100 -näytönohjaimia suositellaan), vähintään 12 Gt RAM -muistia, PyTorch 1.9 ja CUDA 11.1+ Toolkit. Vastaanotettujen kasvojen keinotekoisen luonteen määrittämiseksi kehitetään erityistä ilmaisinta.

Järjestelmä mahdollistaa syntetisoida kuvan uusista kasvoista useiden kasvojen ominaisuuksien interpoloinnin perusteella, joissa yhdistyvät niiden luontaiset piirteet ja lopullinen kuva mukautetaan vaaditun iän, sukupuolen, hiusten pituuden, hymyn luonteen, nenän muodon, ihon värin, lasien, valokuvauskulman mukaan.

Generaattori käsittelee kuvaa tyylien kokoelmana, erottaa automaattisesti ominaispiirteet (pisamia, hiuksia, laseja) yleisistä korkean tason ominaisuuksista (asento, sukupuoli, ikään liittyvät muutokset) ja mahdollistaa niiden mielivaltaisen yhdistämisen hallitsevien ominaisuuksien määrittelyyn painotustekijöiden avulla ja että tuloksena syntyy kuvia, jotka niitä ei ilmeisesti voida erottaa todellisista valokuvista.

Ensimmäinen versio StyleGAN -tekniikasta (julkaistu vuonna 2019), jota seuraa parannettu StyleGAN2 -versio vuonna 2020, mikä parantaa kuvanlaatua ja poistaa joitain esineitä. Samaan aikaan järjestelmä pysyi staattisena, eli se ei sallinut realistisia animaatioita tai kasvojen liikkeitä. StyleGAN3: a kehitettäessä päätavoitteena oli mukauttaa tekniikka käytettäväksi animaatiossa ja videossa.

StyleGAN3 käyttää uudelleen muotoiltua ei-aliasoivaa kuva-arkkitehtuuriaay tarjoaa uusia hermoverkkoharjoitusskenaarioita ja sisältää myös uusia apuohjelmia interaktiiviseen visualisointiin (visualizer.py), analyysiin (avg_spectra.py) ja videoiden luomiseen (gen_video.py). Toteutus vähentää myös muistin kulutusta ja nopeuttaa oppimisprosessia.

StyleGAN3 -arkkitehtuurin keskeinen piirre oli siirtyminen hermoverkon kaikkien signaalien tulkintaan jatkuvien prosessien muodossa, mikä mahdollisti suhteellisten sijaintien manipuloinnin muodostamalla osia, jotka eivät ole sidottuja yksittäisten pikselien absoluuttisiin koordinaatteihin kuva, mutta kiinnitetty edustettujen objektien pintaan.

Vaikka StyleGANissa ja StyleGAN2: ssa pikseleihin napsauttaminen koonti aikana aiheutti ongelmia dynaamisessa renderöinnissäEsimerkiksi kun kuva liikkui, pienet yksityiskohdat, kuten rypyt ja karvat, eivät täsmää, ja ne näyttivät liikkuvan erillään muusta kasvokuvasta.Sen lisäksi StyleGAN3: ssa nämä ongelmat on ratkaistu ja tekniikka on sopivat hyvin videoiden luomiseen.

lopuksi, myös mainitsemisen arvoinen ilmoitus NVIDIA ja Microsoft ovat luoneet suurimman MT-NLG-kielimallin perustuu syvään hermoverkkoon, jossa on »muuntava« arkkitehtuuri.

Malli kattaa 530 miljardia parametria ja käytettiin 4480 GPU: ta koulutukseen (560 DGX A100 -palvelinta, joissa 8 A100 -näytönohjainta, 80 Gt). Mallin käyttöalueita kutsutaan luonnollisen kielen tietojenkäsittelyn ongelmanratkaisuksi, kuten keskeneräisen lauseen loppuunsaattamisen ennustaminen, kysymyksiin vastaaminen, luetun ymmärtäminen, johtopäätösten tekeminen luonnollisella kielellä ja sanojen merkityksen epäselvyyden analysointi.

Jos olet kiinnostunut tietämään siitä lisää, voit tarkistaa StyleGAN3: n tiedot Seuraavassa linkissä.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastaa tiedoista: AB Internet Networks 2008 SL
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.