EnCodec,新的 Meta 音频编解码器

编码器

Encodec 是使用压缩率约为 10 倍的神经网络进行解码的编解码器

近日, (前脸书) 推出了名为 EnCodec 的新音频编解码器,使用机器学习技术 在不损失质量的情况下提高压缩比。

新方法可以实时压缩和解压缩音频,以实现最先进的尺寸缩减。 编解码器 可用于实时流式传输音频 至于编码以便以后存储在文件中。

今天,我们将详细介绍我们的基础人工智能研究 (FAIR) 在人工智能驱动的音频超压缩领域取得的进展。 想象一下,在连接性较差的区域听朋友的音频消息,并且没有停止或崩溃。 我们的研究表明我们可以如何使用人工智能来帮助我们实现这一目标。

编解码器 提供两种型号 准备下载:

  1. 使用 24 kHz 采样率的因果模型,仅支持单声道音频,并针对各种音频数据进行训练(适用于语音编码)。 该模型可用于打包音频数据,以便以 1,5、3、6、12 和 24 kbps 的比特率传输。
  2. 一个使用 48kHz 采样率的非因果模型,支持立体声,并且仅接受音乐训练。 该模型支持 3、6、12 和 24 kbps 的比特率。

对于每个模型,都准备了一个额外的语言模型, 劳阙 允许显着增加 在不损失质量的情况下压缩比(高达 40%)。 与之前将机器学习技术应用于音频压缩的项目不同, EnCodec不仅可以用于语音打包,还可以用于音乐压缩 采样频率为 48 kHz,对应于音频 CD 的电平。

据新编解码器的开发人员称,与 MP64 格式相比,通过以 3 kbps 的比特率传输,他们设法将音频压缩率提高了大约 3 倍,同时保持相同的质量水平(例如,当使用 MP64它需要 6 kbps 的带宽,在 EnCodec 中以相同的质量传输,XNUMX kbps 就足够了)。

然后可以使用神经网络对这些数据进行解码。 与 10kbps 的 MP3 相比,我们实现了大约 64 倍的压缩率,并且没有质量损失。 虽然这些技术之前已经探索过语音,但我们是第一个使其适用于 48 kHz 采样立体声音频(即 CD 质量)的,这是音乐分发的标准。

编解码器的架构 它建立在神经网络的基础上 具有“变革性”架构 并且基于四个债券:编码器、量化器、解码器和鉴别器:

  • El 编码器 从语音数据中提取参数并以较低的帧速率将其转换为分组流。
  • El 量词 (RVQ,残差矢量量化器)将编码器输出流转换为数据包集,压缩与所选比特率相关的信息。 量化器的输出是适合通过网络传输或保存到磁盘的数据的压缩表示。
  • El 装饰师 解码压缩数据表示并重建原始声波。
  • El 鉴别器 考虑到人类听觉感知模型,提高了生成样本(sample)的质量。

无论质量水平和比特率如何,用于编码和解码的模型在资源需求上都不同(实时操作所需的计算在一个 CPU 内核上执行)。

最后,对于那些感兴趣的人,你应该知道 EnCodec 的参考实现是使用 Python 使用 PyTorch 框架编写的,并且在 CC BY-NC 4.0(Creative Commons Attribution-NonCommercial)许可下用于非商业用途只要。

如果您有兴趣了解更多有关它的信息,可以在以下网址查阅详细信息 以下链接。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。