StyleGAN3, система за машинно обучение на Nvidi за синтез на лице

наскоро NVIDIA пусна изходния код за StyleGAN3, система за машинно обучение, базирана на генеративни неблагоприятни невронни мрежи (GAN) за синтезиране на реалистични изображения на човешки лица.

В StyleGAN3 са достъпни за изтегляне на готови за употреба обучени модели, обучени в колекцията Flickr-Faces-HQ (FFHQ), който включва 70 хиляди PNG изображения с висококачествени човешки лица (1024 × 1024). Освен това има модели, изградени въз основа на колекциите AFHQv2 (снимки на лица на животни) и Metfaces (изображения на лица на хора от портрети от класическа живопис).

За StyleGAN3

Дизайнът фокусира се върху лица, но системата може да бъде обучена да генерира всякакъв вид обект, като пейзажи и коли. Какво още, предоставени са инструменти за самообучение на невронната мрежа като използвате свои собствени колекции от изображения. Изисква една или повече графични карти NVIDIA (Препоръчителни графични процесори Tesla V100 или A100), поне 12 GB RAM, PyTorch 1.9 и CUDA 11.1+ Toolkit. За да се определи изкуствената природа на получените лица, се разработва специален детектор.

Системата позволява да се синтезира изображение на ново лице въз основа на интерполация на чертите на няколко лица, съчетавайки присъщите им характеристики, в допълнение към адаптирането на крайното изображение към необходимата възраст, пол, дължина на косата, характер на усмивка, форма на носа, цвят на кожата, очила, ъгъл на фотография.

Генератор третира изображението като колекция от стилове, автоматично отделя характерните детайли (лунички, коса, очила) на общите атрибути на високо ниво (стойка, пол, промени, свързани с възрастта) и позволява да се комбинира произволно с дефиницията на доминиращи свойства чрез претеглящи фактори и че в резултат на това се генерират изображения, че те очевидно не се различават от действителните снимки.

Първата версия на технологията StyleGAN (пусната през 2019 г.), последвана от подобрена версия на StyleGAN2 през 2020 г., която подобрява качеството на изображението и премахва някои артефакти. В същото време системата остава статична, тоест не позволява реалистични анимации или движения на лицето. При разработването на StyleGAN3 основната цел беше да се адаптира технологията за използване в анимация и видео.

StyleGAN3 използва преработена нелинейна архитектура за изображенияay предлага нови сценарии за обучение на невронни мрежи и включва също нови помощни програми за интерактивна визуализация (visualizer.py), анализ (avg_spectra.py) и генериране на видео (gen_video.py). Изпълнението също така намалява консумацията на памет и ускорява процеса на обучение.

Ключова характеристика на архитектурата StyleGAN3 беше преминаването към интерпретация на всички сигнали в невронната мрежа под формата на непрекъснати процеси, което направи възможно манипулирането на относителни позиции чрез формиране на части, които не са обвързани с абсолютните координати на отделните пиксели в изображение, но фиксирано към повърхността на представените обекти.

докато в StyleGAN и StyleGAN2, прилепването към пиксели по време на компилирането предизвика проблеми с динамичното изобразяванеНапример, когато изображението се движеше, имаше несъответствие на малки детайли, като бръчки и косми, които сякаш се движеха отделно от останалата част от изображението на лицето, в допълнение към това в StyleGAN3 тези проблеми се решават и технологията има стават доста подходящи за генериране на видео.

И накрая, също заслужава да се спомене съобщението на създаването от NVIDIA и Microsoft на най-големия езиков модел MT-NLG базиран на дълбока невронна мрежа с "трансформираща" архитектура.

Моделът обхваща 530 милиарда параметри и е използван пул от 4480 графични процесора за обучение (560 сървъра DGX A100 с 8 графични процесора A100 по 80 GB всеки). Областите на приложение на модела се наричат ​​решаване на проблеми при обработката на информация на естествен език, като например предсказване на завършването на незавършено изречение, отговаряне на въпроси, разбиране на четене, формиране на заключения на естествен език и анализ на неяснотата на значението на думите.

Ако се интересувате да научите повече за това, можете да проверите подробностите за StyleGAN3 В следващия линк.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорник за данните: AB Internet Networks 2008 SL
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.