В последнее время, Мета (ранее Фейсбук) представила свой новый аудиокодек под названием EnCodec, что использует методы машинного обучения увеличить степень сжатия без потери качества.
Новый подход может сжимать и распаковывать звук в режиме реального времени, чтобы добиться ультрасовременного уменьшения размера. кодек может использоваться как для потоковой передачи звука в режиме реального времени что касается кодирования для последующего хранения в файлах.
Сегодня мы подробно расскажем о прогрессе, достигнутом нашим фундаментальным исследованием искусственного интеллекта (FAIR) в области гиперсжатия звука на основе искусственного интеллекта. Представьте, что вы слушаете аудиосообщение друга в районе с плохой связью и не останавливаетесь и не падаете. Наше исследование показывает, как мы можем использовать ИИ для достижения этой цели.
ИнКодек предлагаем две модели готово для скачивания:
- Каузальная модель, которая использует частоту дискретизации 24 кГц, поддерживает только монофонический звук и обучается на различных аудиоданных (подходит для кодирования речи). Модель может использоваться для упаковки аудиоданных для передачи с битрейтом 1,5, 3, 6, 12 и 24 кбит/с.
- Некаузальная модель, использующая частоту дискретизации 48 кГц, поддерживающая стереозвук и обученная только музыке. Модель поддерживает битрейт 3, 6, 12 и 24 кбит/с.
Для каждой модели подготовлена дополнительная языковая модель, как позволяет значительно увеличить в степени сжатия (до 40%) без потери качества. В отличие от предыдущих проектов по применению методов машинного обучения к сжатию звука, EnCodec можно использовать не только для упаковки речи, но и для сжатия музыки. с частотой дискретизации 48 кГц, соответствующей уровню аудио компакт-дисков.
По словам разработчиков нового кодека, за счет передачи с битрейтом 64 кбит/с по сравнению с форматом MP3 им удалось увеличить степень сжатия звука примерно в десять раз при сохранении того же уровня качества (например, при использовании MP3 требуется пропускная способность 64 кбит/с, для передачи с таким же качеством в EnCodec достаточно 6 кбит/с).
Затем эти данные можно расшифровать с помощью нейронной сети. Мы добились примерно 10-кратного сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя эти методы были исследованы ранее для речи, мы первыми заставили их работать для дискретизированного стереозвука 48 кГц (т.е. качества CD), который является стандартом для распространения музыки.
Архитектура кодека Построен на основе нейронной сети с «преобразующей» архитектурой и основан на четырех связях: кодировщик, квантизатор, декодер и дискриминатор:
- El кодировщик извлекает параметры из голосовых данных и преобразует их в пакетный поток с более низкой частотой кадров.
- El квантификатор (RVQ, Residual Vector Quantizer) преобразует выходной поток кодера в наборы пакетов, сжимая информацию относительно выбранной скорости передачи данных. Выход квантователя представляет собой сжатое представление данных, подходящее для передачи по сети или сохранения на диск.
- El декодер декодирует представление сжатых данных и восстанавливает исходную звуковую волну.
- El дискриминатор улучшает качество генерируемых сэмплов (сэмплов) с учетом модели слухового восприятия человека.
Независимо от уровня качества и битрейта модели, используемые для кодирования и декодирования, отличаются довольно скромными требованиями к ресурсам (вычисления, необходимые для работы в реальном времени, выполняются на одном ядре ЦП).
Наконец, для тех из вас, кто заинтересован, вы должны знать, что эталонная реализация EnCodec написана на Python с использованием среды PyTorch и находится под лицензией CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) для некоммерческого использования. Только.
Если вы хотите узнать больше об этом, вы можете ознакомиться с подробностями на по следующей ссылке.