StyleGAN3, система машинного обучения Nvidi для синтеза лица

Недавно NVIDIA выпустила исходный код для StyleGAN3, система машинного обучения, основанная на генеративных неблагоприятных нейронных сетях (GAN) для синтеза реалистичных изображений человеческих лиц.

В стиле GAN3 доступны для скачивания готовые обученные модели, обученные в сборнике Flickr-Faces-HQ (FFHQ), который включает 70 тысяч PNG изображений человеческих лиц высокого качества (1024 × 1024). Кроме того, существуют модели, построенные на основе коллекций AFHQv2 (фотографии лиц животных) и Metfaces (изображения лиц людей из портретов классической живописи).

О StyleGAN3

дизайн фокусируется на лицах, но систему можно обучить генерировать объекты любого типа, люблю пейзажи и машины. Более того, предусмотрены инструменты для самообучения нейронной сети используя свои собственные коллекции изображений. Требуется одна или несколько видеокарт NVIDIA (Рекомендуются графические процессоры Tesla V100 или A100), не менее 12 ГБ ОЗУ, PyTorch 1.9 и CUDA 11.1+ Toolkit. Для определения искусственности полученных лиц разрабатывается специальный детектор.

Система позволяет синтезировать изображение нового лица на основе интерполяции черт нескольких лиц, совмещая присущие им особенности, а также адаптируя конечное изображение к требуемому возрасту, полу, длине волос, характеру улыбки, форме носа, цвету кожи, очкам, фотографическому ракурсу.

Генератор обрабатывает изображение как набор стилей, автоматически разделяет характерные детали (веснушки, волосы, очки) общих высокоуровневых атрибутов (осанка, пол, возрастные изменения) и позволяет произвольно комбинировать их с определением доминирующих свойств с помощью весовых коэффициентов, и в результате создаются изображения, которые они очевидно неотличимы от реальных фотографий.

Первая версия технологии StyleGAN (выпущенная в 2019 году), за которой следует улучшенная версия StyleGAN2 в 2020 году, которая улучшает качество изображения и удаляет некоторые артефакты. При этом система оставалась статичной, то есть не допускала реалистичных анимаций или движений лица. При разработке StyleGAN3 основной целью было адаптировать технологию для использования в анимации и видео.

StyleGAN3 использует переработанную архитектуру обработки изображений без сглаживания.ay предлагает новые сценарии обучения нейронной сети, а также включает новые утилиты для интерактивной визуализации (visualizer.py), анализа (avg_spectra.py) и генерации видео (gen_video.py). Реализация также снижает потребление памяти и ускоряет процесс обучения.

Ключевой особенностью архитектуры StyleGAN3 был переход к интерпретации всех сигналов в нейронной сети в виде непрерывных процессов, что позволяло манипулировать относительными положениями путем формирования частей, не привязанных к абсолютным координатам отдельных пикселей в изображение, но закрепленное на поверхности изображаемых объектов.

В то время как в StyleGAN и StyleGAN2 привязка к пикселям во время сборки вызвала проблемы с динамическим рендерингомНапример, когда изображение двигалось, было несоответствие мелких деталей, таких как морщины и волосы, которые, казалось, двигались отдельно от остальной части изображения лица, в дополнение к тому, что в StyleGAN3 эти проблемы решены, и технология решила стать вполне пригодным для генерации видео.

Наконец, также стоит упомянуть объявление создание NVIDIA и Microsoft крупнейшей языковой модели MT-NLG основан на глубокой нейронной сети с «преобразующей» архитектурой.

Модель охватывает 530 миллиардов параметров и используется пул из 4480 графических процессоров. для обучения (560 серверов DGX A100 с 8 GPU A100 по 80 ГБ каждый). Области применения модели называются решением задач обработки информации на естественном языке, например, прогнозирование завершения незаконченного предложения, ответы на вопросы, понимание прочитанного, формирование выводов на естественном языке и анализ неоднозначности значения слов.

Если вам интересно узнать об этом больше, вы можете проверить детали StyleGAN3 По следующей ссылке.


Содержание статьи соответствует нашим принципам редакционная этика. Чтобы сообщить об ошибке, нажмите здесь.

Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован.

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.

bool (истина)