StyleGAN3,英伟迪的面部合成机器学习系统

最近 NVIDIA 发布 StyleGAN3 源代码,一种基于生成逆向神经网络 (GAN) 的机器学习系统,用于合成人脸的逼真图像。

风格GAN3 可用于下载在集合中训练的即用型训练模型 Flickr-Faces-HQ (FFHQ),其中包含 70 万张高质量人脸 (1024 × 1024) 的 PNG 图像。 此外,还有基于AFHQv2(动物面部照片)和Metfaces(古典绘画肖像中的人脸图像)集合构建的模型。

关于 StyleGAN3

设计 专注于人脸,但可以训练系统生成任何类型的对象, 比如风景和汽车。 更重要的是, 提供了用于神经网络自学习的工具 使用您自己的图像集。 需要一张或多张 NVIDIA 显卡 (推荐使用 Tesla V100 或 A100 GPU)、至少 12GB 的 RAM、PyTorch 1.9 和 CUDA 11.1+ 工具包。 为了确定接收到的人脸的人工性质,正在开发一种特殊的检测器。

系统 允许根据几张脸的特征的插值合成一张新脸的图像,结合它们的固有特征,除了使最终图像适应所需的年龄、性别、头发长度、微笑特征、鼻子形状、肤色、眼镜、摄影角度之外。

发电机 将图像视为样式的集合,自动分离特征细节 (雀斑、头发、眼镜)的一般高级属性(姿势、性别、与年龄相关的变化),并允许它们通过加权因子与主导属性的定义任意组合,从而生成图像它们显然与实际照片无法区分。

StyleGAN 技术的第一个版本(2019 年发布),随后是 2 年 StyleGAN2020 的改进版本,提高了图像质量并去除了一些伪影。 同时,系统保持静态,即不允许逼真的动画或面部动作。 在开发 StyleGAN3 时,主要目标是使该技术适用于动画和视频。

StyleGAN3 使用重新设计的非锯齿成像架构ay 提供了新的神经网络训练场景,还包括用于交互式可视化 (visualizer.py)、分析 (avg_spectra.py) 和视频生成 (gen_video.py) 的新实用程序。 该实现还减少了内存消耗并加快了学习过程。

StyleGAN3 架构的一个关键特征是过渡到以连续过程的形式解释神经网络中的所有信号,这使得通过形成部分来操纵相对位置成为可能,而不受图像中单个像素的绝对坐标的约束,但固定在所代表物体的表面。

在 StyleGAN 和 StyleGAN2 中,在构建期间捕捉到像素会导致动态渲染问题例如,当图像移动时,出现皱纹和毛发等小细节的不匹配,这些细节似乎与人脸图像的其余部分分开移动,此外在 StyleGAN3 中这些问题都得到了解决,该技术具有变得非常适合视频生成。

最后, 还值得一提 的公告 英伟达和微软创造最大的 MT-NLG 语言模型 基于具有“变革性”架构的深度神经网络。

该模型涵盖了 530 亿个参数,并使用了 4480 个 GPU 池 用于训练(560 个 DGX A100 服务器,每个服务器有 8 个 100 GB 的 A80 GPU)。 该模型的应用领域被称为自然语言中的信息处理问题解决,例如预测未完成的句子的完成、回答问题、阅读理解、在自然语言中形成结论以及分析词义的歧义。

如果你有兴趣了解更多,你可以查看StyleGAN3的细节 在下面的链接中。


成为第一个发表评论

发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。