StyleGAN3, система машинного навчання Nvidi для синтезу обличчя

Останнім часом NVIDIA випустила вихідний код для StyleGAN3, система машинного навчання на основі генеративних несприятливих нейронних мереж (GAN) для синтезу реалістичних зображень людських облич.

У StyleGAN3 доступні для завантаження готових до використання навчених моделей, навчених у колекції Flickr-Faces-HQ (FFHQ), який містить 70 тисяч PNG зображень високоякісних людських облич (1024 × 1024). Крім того, існують моделі, побудовані на основі колекцій AFHQv2 (фотографії облич тварин) та Metfaces (зображення облич людей із портретів класичного живопису).

Про StyleGAN3

Дизайн фокусується на особах, але систему можна навчити генерувати будь -який тип об’єктів, як пейзажі та автомобілі. Що ще, надаються інструменти для самонавчання нейронної мережі використання власних колекцій зображень. Потрібна одна або кілька відеокарт NVIDIA (Рекомендовано графічні процесори Tesla V100 або A100), принаймні 12 ГБ оперативної пам’яті, PyTorch 1.9 та набір інструментів CUDA 11.1+. Для визначення штучної природи отриманих граней розробляється спеціальний детектор.

Система дозволяє синтезувати зображення нового обличчя на основі інтерполяції ознак кількох облич, поєднуючи притаманні їм риси, на додаток до адаптації кінцевого зображення до необхідного віку, статі, довжини волосся, характеру посмішки, форми носа, кольору шкіри, окулярів, фотографічного кута.

Генератор розглядає зображення як сукупність стилів, автоматично відокремлює характерні деталі (веснянки, волосся, окуляри) загальних атрибутів високого рівня (постава, стать, вікові зміни) і дозволяє їх довільно поєднувати з визначенням домінуючих властивостей за допомогою вагових факторів і, як наслідок, створюються зображення, які вони, очевидно, не відрізняються від справжніх фотографій.

Перша версія технології StyleGAN (випущена в 2019 році), а потім вдосконалена версія StyleGAN2 у 2020 році, яка покращує якість зображення та видаляє деякі артефакти. Водночас система залишалася статичною, тобто не допускала реалістичних анімацій чи рухів обличчя. При розробці StyleGAN3 основною метою було адаптувати технологію для використання в анімації та відео.

StyleGAN3 використовує оновлену архітектуру зображення, яка не має псевдонімівay пропонує нові сценарії навчання нейронних мереж, а також містить нові утиліти для інтерактивної візуалізації (visualizer.py), аналізу (avg_spectra.py) та генерації відео (gen_video.py). Реалізація також зменшує споживання пам’яті та прискорює процес навчання.

Ключовою особливістю архітектури StyleGAN3 був перехід до інтерпретації всіх сигналів у нейронній мережі у вигляді безперервних процесів, що дало можливість маніпулювати відносними положеннями шляхом формування частин, не прив'язаних до абсолютних координат окремих пікселів на зображенні, але закріплені на поверхні представлених об’єктів.

в той час як у StyleGAN та StyleGAN2 прив'язка до пікселів під час збірки спричинила проблеми з динамічним візуалізацієюНаприклад, коли зображення рухалося, відбулося невідповідність дрібних деталей, таких як зморшки та волосся, які, здавалося, рухалися окремо від решти зображення обличчя, на додаток до того, що у StyleGAN3 ці проблеми вирішені, а технологія має стають цілком придатними для створення відео.

Нарешті, також варто згадати оголошення про створення NVIDIA та Microsoft найбільшої мовної моделі MT-NLG на основі глибокої нейронної мережі з «трансформативною» архітектурою.

Модель охоплює 530 мільярдів параметрів і використовується пул з 4480 графічних процесорів для навчання (560 серверів DGX A100 з 8 графічними процесорами A100 по 80 ГБ кожен). Області застосування моделі називаються вирішенням проблем обробки інформації природною мовою, наприклад передбачення завершення незакінченого речення, відповіді на запитання, розуміння читання, формування висновків природною мовою та аналіз двозначності значення слів.

Якщо вам цікаво дізнатись більше про це, Ви можете перевірити деталі StyleGAN3 У наступному посиланні.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: AB Internet Networks 2008 SL
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.