EnCodec, новый аудиокодек Meta

кодек

Encodec — это кодек, который декодирует с помощью нейронной сети со степенью сжатия примерно в 10 раз.

В последнее время, Мета (ранее Фейсбук) представила свой новый аудиокодек под названием EnCodec, что использует методы машинного обучения увеличить степень сжатия без потери качества.

Новый подход может сжимать и распаковывать звук в режиме реального времени, чтобы добиться ультрасовременного уменьшения размера. кодек может использоваться как для потоковой передачи звука в режиме реального времени что касается кодирования для последующего хранения в файлах.

Сегодня мы подробно расскажем о прогрессе, достигнутом нашим фундаментальным исследованием искусственного интеллекта (FAIR) в области гиперсжатия звука на основе искусственного интеллекта. Представьте, что вы слушаете аудиосообщение друга в районе с плохой связью и не останавливаетесь и не падаете. Наше исследование показывает, как мы можем использовать ИИ для достижения этой цели.

ИнКодек предлагаем две модели готово для скачивания:

  1. Каузальная модель, которая использует частоту дискретизации 24 кГц, поддерживает только монофонический звук и обучается на различных аудиоданных (подходит для кодирования речи). Модель может использоваться для упаковки аудиоданных для передачи с битрейтом 1,5, 3, 6, 12 и 24 кбит/с.
  2. Некаузальная модель, использующая частоту дискретизации 48 кГц, поддерживающая стереозвук и обученная только музыке. Модель поддерживает битрейт 3, 6, 12 и 24 кбит/с.

Для каждой модели подготовлена ​​дополнительная языковая модель, как позволяет значительно увеличить в степени сжатия (до 40%) без потери качества. В отличие от предыдущих проектов по применению методов машинного обучения к сжатию звука, EnCodec можно использовать не только для упаковки речи, но и для сжатия музыки. с частотой дискретизации 48 кГц, соответствующей уровню аудио компакт-дисков.

По словам разработчиков нового кодека, за счет передачи с битрейтом 64 кбит/с по сравнению с форматом MP3 им удалось увеличить степень сжатия звука примерно в десять раз при сохранении того же уровня качества (например, при использовании MP3 требуется пропускная способность 64 кбит/с, для передачи с таким же качеством в EnCodec достаточно 6 кбит/с).

Затем эти данные можно расшифровать с помощью нейронной сети. Мы добились примерно 10-кратного сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя эти методы были исследованы ранее для речи, мы первыми заставили их работать для дискретизированного стереозвука 48 кГц (т.е. качества CD), который является стандартом для распространения музыки.

Архитектура кодека Построен на основе нейронной сети с «преобразующей» архитектурой и основан на четырех связях: кодировщик, квантизатор, декодер и дискриминатор:

  • El кодировщик извлекает параметры из голосовых данных и преобразует их в пакетный поток с более низкой частотой кадров.
  • El квантификатор (RVQ, Residual Vector Quantizer) преобразует выходной поток кодера в наборы пакетов, сжимая информацию относительно выбранной скорости передачи данных. Выход квантователя представляет собой сжатое представление данных, подходящее для передачи по сети или сохранения на диск.
  • El декодер декодирует представление сжатых данных и восстанавливает исходную звуковую волну.
  • El дискриминатор улучшает качество генерируемых сэмплов (сэмплов) с учетом модели слухового восприятия человека.

Независимо от уровня качества и битрейта модели, используемые для кодирования и декодирования, отличаются довольно скромными требованиями к ресурсам (вычисления, необходимые для работы в реальном времени, выполняются на одном ядре ЦП).

Наконец, для тех из вас, кто заинтересован, вы должны знать, что эталонная реализация EnCodec написана на Python с использованием среды PyTorch и находится под лицензией CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) для некоммерческого использования. Только.

Если вы хотите узнать больше об этом, вы можете ознакомиться с подробностями на по следующей ссылке.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.