EnCodec, новий аудіокодек Meta

кодек

Encodec — це кодек, який декодує за допомогою нейронної мережі зі ступенем стиснення приблизно 10x

Нещодавно Meta (раніше Facebook) представила свій новий аудіокодек EnCodec, що використовує методи машинного навчання збільшити ступінь стиснення без втрати якості.

Новий підхід може стискати та розпаковувати аудіо в режимі реального часу для досягнення сучасного зменшення розміру. кодек можна використовувати як для потокового аудіо в реальному часі щодо кодування для подальшого зберігання у файлах.

Сьогодні ми докладно розповідаємо про прогрес, досягнутий нашим Фундаментальним дослідженням штучного інтелекту (FAIR) у галузі гіперстиснення аудіо на основі штучного інтелекту. Уявіть собі, що ви слухаєте аудіоповідомлення друга в зоні з поганим зв’язком і не зупиняєтеся або не зазнаєте збою. Наше дослідження показує, як ми можемо використовувати ШІ, щоб допомогти нам досягти цього.

У кодеку пропонуємо дві моделі готовий до завантаження:

  1. Причинно-наслідкова модель, яка використовує частоту дискретизації 24 кГц, підтримує лише монофонічний звук і навчається на різноманітних аудіоданих (придатних для кодування мовлення). Модель може використовуватися для упаковки аудіоданих для передачі зі швидкістю потоку 1,5, 3, 6, 12 і 24 Кбіт/с.
  2. Непричинна модель, яка використовує частоту дискретизації 48 кГц, підтримує стереозвук і була навчена лише на музиці. Модель підтримує бітрейт 3, 6, 12 і 24 Кбіт/с.

Для кожної моделі була підготовлена ​​додаткова мовна модель, що дозволяє значно збільшити в ступені стиснення (до 40%) без втрати якості. На відміну від попередніх проектів із застосування методів машинного навчання до стиснення звуку, EnCodec можна використовувати не тільки для упаковки мови, а й для стиснення музики з частотою дискретизації 48 кГц, що відповідає рівню аудіо компакт-дисків.

За словами розробників нового кодека, шляхом передачі з бітрейтом 64 Кбіт/с у порівнянні з форматом MP3 їм вдалося збільшити ступінь стиснення звуку приблизно в десять разів при збереженні того ж рівня якості (наприклад, при використанні MP3). для цього потрібна пропускна здатність 64 Кбіт/с, для передачі з такою ж якістю в EnCodec достатньо 6 Кбіт/с).

Потім ці дані можна декодувати за допомогою нейронної мережі. Ми досягли приблизно 10-кратного рівня стиснення порівняно з MP3 зі швидкістю 64 Кбіт/с без втрати якості. Хоча ці методи були досліджені раніше для мовлення, ми перші, хто спромігся працювати зі стереозвуком 48 кГц (тобто якість CD), що є стандартом для розповсюдження музики.

Архітектура кодека Він побудований на основі нейронної мережі з «трансформативною» архітектурою і базується на чотирьох облігаціях: кодер, квантувач, декодер і дискримінатор:

  • El кодер витягує параметри з голосових даних і перетворює їх у пакетований потік із нижчою частотою кадрів.
  • El квантор (RVQ, Residual Vector Quantizer) перетворює вихідний потік кодера в набори пакетів, стискаючи інформацію відносно вибраної швидкості передачі даних. Вихід квантувача є стислим представленням даних, придатним для передачі через мережу або збереження на диску.
  • El декодер декодує представлення стиснутих даних і реконструює оригінальну звукову хвилю.
  • El дискримінатор покращує якість генерованих зразків (семплів) з урахуванням моделі слухового сприйняття людини.

Незалежно від рівня якості та бітрейту моделі, що використовуються для кодування та декодування, відрізняються досить скромними вимогами до ресурсів (обчислення, необхідні для роботи в реальному часі, виконуються на одному ядрі ЦП).

Нарешті, для тих із вас, хто зацікавлений, ви повинні знати, що еталонна реалізація EnCodec написана на Python з використанням інфраструктури PyTorch і ліцензована за ліцензією CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) для некомерційного використання. тільки.

Якщо вам цікаво дізнатися більше про це, ви можете переглянути подробиці за адресою за наступним посиланням.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: AB Internet Networks 2008 SL
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.