StyleGAN3, az Nvidi gépi tanulási rendszere az arc szintéziséhez

nemrég Az NVIDIA kiadta a StyleGAN3 forráskódját, egy generációs káros ideghálózaton (GAN) alapuló gépi tanulási rendszer, amely az emberi arcok valósághű képeit szintetizálja.

A StyleGAN3 -ban állnak rendelkezésre a gyűjteményben betanított, használatra kész, kiképzett modellek letöltéséhez Flickr-Faces-HQ (FFHQ), amely 70 ezer kiváló minőségű PNG-képet tartalmaz emberi arcokról (1024 × 1024). Ezen kívül vannak olyan modellek, amelyek az AFHQv2 (állati arcok fényképei) és a Metfaces (emberek arcának képei a klasszikus festményportrékból) gyűjtemények alapján készültek.

A StyleGAN3 -ról

tervezés arcokra fókuszál, de a rendszer bármilyen típusú objektum előállítására betanítható, mint a tájak és az autók. Mi több, eszközöket biztosítanak a neurális hálózat önálló tanulásához saját képgyűjtemények használatával. Egy vagy több NVIDIA grafikus kártya szükséges (Tesla V100 vagy A100 GPU ajánlott), legalább 12 GB RAM, PyTorch 1.9 és CUDA 11.1+ Toolkit. A fogadott arcok mesterséges jellegének meghatározásához speciális detektort fejlesztenek.

A rendszer lehetővé teszi egy új arc képének szintetizálását több arc jellemzőinek interpolációja alapján, ötvözik a bennük rejlő jellemzőket, amellett, hogy a végső képet a kívánt életkorhoz, nemhez, hajhosszhoz, mosolykarakterhez, orrformához, bőrszínhez, szemüveghez, fényképészeti szöghöz igazítják.

Generátor stílusok gyűjteményeként kezeli a képet, automatikusan elválasztja a jellemző részleteket (szeplők, haj, szemüveg) az általános magas szintű attribútumok (testtartás, nem, életkorral kapcsolatos változások), és lehetővé teszi számukra, hogy önkényesen kombinálják őket a domináns tulajdonságok meghatározásával súlyozási tényezők révén, és ennek eredményeként olyan képeket hozzanak létre, amelyek látszólag nem különböztethetők meg a tényleges fényképektől.

A StyleGAN technológia első verziója (2019 -ben megjelent), majd a StyleGAN2 továbbfejlesztett változata 2020 -ban, amely javítja a képminőséget és eltávolít néhány műterméket. Ugyanakkor a rendszer statikus maradt, vagyis nem engedett reális animációkat vagy arcmozgásokat. A StyleGAN3 fejlesztésekor a fő cél az volt, hogy a technológiát animációhoz és videóhoz használják.

A StyleGAN3 egy újratervezett, nem álnevesített képalkotási architektúrát használay új ideghálózati képzési forgatókönyveket kínál, és új segédprogramokat is tartalmaz az interaktív vizualizációhoz (visualizer.py), az elemzéshez (avg_spectra.py) és a videógeneráláshoz (gen_video.py). A megvalósítás csökkenti a memóriafogyasztást és felgyorsítja a tanulási folyamatot.

A StyleGAN3 architektúra egyik kulcsfontosságú jellemzője az volt, hogy a neurális hálózatban lévő összes jel értelmezésére folyamatos folyamatok formájában került sor, ami lehetővé tette a relatív pozíciók manipulálását az egyes képpontok abszolút koordinátáihoz nem kötve kép, de rögzítve van az ábrázolt objektumok felületéhez.

míg a StyleGAN és a StyleGAN2 rendszerben a képpontokra csattanás a build során problémákat okozott a dinamikus megjelenítésbenpéldául amikor a kép mozog, az apró részletek, például a ráncok és a szőrszálak nem egyeznek, amelyek úgy tűntek, hogy elmozdulnak az arckép többi részétől, ráadásul a StyleGAN3 -ban ezek a problémák megoldódtak, és a technológia nagyon alkalmassá válnak a videogenerálásra.

Végül, szintén említést érdemel bejelentése az NVIDIA és a Microsoft által a legnagyobb MT-NLG nyelvmodell létrehozása mély neurális hálózaton alapul, »átalakító« architektúrával.

A modell 530 milliárd paramétert fed le, és 4480 GPU -t használtak képzéshez (560 DGX A100 szerver 8 darab 100 GB -os A80 GPU -val). A modell alkalmazási területeit természetes nyelvi információfeldolgozási problémamegoldásnak nevezik, mint például egy befejezetlen mondat befejezésének előrejelzése, kérdések megválaszolása, szövegértés, következtetések készítése természetes nyelven és a szavak jelentésének kétértelműségének elemzése.

Ha érdekel, hogy többet tudjon meg róla, ellenőrizheti a StyleGAN3 részleteit A következő linken.

LinuxAdictos

StyleGAN3, az Nvidi gépi tanulási rendszere az arc szintéziséhez

A StyleGAN3 -ról

Hagyja megjegyzését Mégsem válaszát