Нещодавно Meta (раніше Facebook) представила свій новий аудіокодек EnCodec, що використовує методи машинного навчання збільшити ступінь стиснення без втрати якості.
Новий підхід може стискати та розпаковувати аудіо в режимі реального часу для досягнення сучасного зменшення розміру. кодек можна використовувати як для потокового аудіо в реальному часі щодо кодування для подальшого зберігання у файлах.
Сьогодні ми докладно розповідаємо про прогрес, досягнутий нашим Фундаментальним дослідженням штучного інтелекту (FAIR) у галузі гіперстиснення аудіо на основі штучного інтелекту. Уявіть собі, що ви слухаєте аудіоповідомлення друга в зоні з поганим зв’язком і не зупиняєтеся або не зазнаєте збою. Наше дослідження показує, як ми можемо використовувати ШІ, щоб допомогти нам досягти цього.
У кодеку пропонуємо дві моделі готовий до завантаження:
- Причинно-наслідкова модель, яка використовує частоту дискретизації 24 кГц, підтримує лише монофонічний звук і навчається на різноманітних аудіоданих (придатних для кодування мовлення). Модель може використовуватися для упаковки аудіоданих для передачі зі швидкістю потоку 1,5, 3, 6, 12 і 24 Кбіт/с.
- Непричинна модель, яка використовує частоту дискретизації 48 кГц, підтримує стереозвук і була навчена лише на музиці. Модель підтримує бітрейт 3, 6, 12 і 24 Кбіт/с.
Для кожної моделі була підготовлена додаткова мовна модель, що дозволяє значно збільшити в ступені стиснення (до 40%) без втрати якості. На відміну від попередніх проектів із застосування методів машинного навчання до стиснення звуку, EnCodec можна використовувати не тільки для упаковки мови, а й для стиснення музики з частотою дискретизації 48 кГц, що відповідає рівню аудіо компакт-дисків.
За словами розробників нового кодека, шляхом передачі з бітрейтом 64 Кбіт/с у порівнянні з форматом MP3 їм вдалося збільшити ступінь стиснення звуку приблизно в десять разів при збереженні того ж рівня якості (наприклад, при використанні MP3). для цього потрібна пропускна здатність 64 Кбіт/с, для передачі з такою ж якістю в EnCodec достатньо 6 Кбіт/с).
Потім ці дані можна декодувати за допомогою нейронної мережі. Ми досягли приблизно 10-кратного рівня стиснення порівняно з MP3 зі швидкістю 64 Кбіт/с без втрати якості. Хоча ці методи були досліджені раніше для мовлення, ми перші, хто спромігся працювати зі стереозвуком 48 кГц (тобто якість CD), що є стандартом для розповсюдження музики.
Архітектура кодека Він побудований на основі нейронної мережі з «трансформативною» архітектурою і базується на чотирьох облігаціях: кодер, квантувач, декодер і дискримінатор:
- El кодер витягує параметри з голосових даних і перетворює їх у пакетований потік із нижчою частотою кадрів.
- El квантор (RVQ, Residual Vector Quantizer) перетворює вихідний потік кодера в набори пакетів, стискаючи інформацію відносно вибраної швидкості передачі даних. Вихід квантувача є стислим представленням даних, придатним для передачі через мережу або збереження на диску.
- El декодер декодує представлення стиснутих даних і реконструює оригінальну звукову хвилю.
- El дискримінатор покращує якість генерованих зразків (семплів) з урахуванням моделі слухового сприйняття людини.
Незалежно від рівня якості та бітрейту моделі, що використовуються для кодування та декодування, відрізняються досить скромними вимогами до ресурсів (обчислення, необхідні для роботи в реальному часі, виконуються на одному ядрі ЦП).
Нарешті, для тих із вас, хто зацікавлений, ви повинні знати, що еталонна реалізація EnCodec написана на Python з використанням інфраструктури PyTorch і ліцензована за ліцензією CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) для некомерційного використання. тільки.
Якщо вам цікаво дізнатися більше про це, ви можете переглянути подробиці за адресою за наступним посиланням.