EnCodec, nový zvukový kodek Meta

kódovač

Encodec je kodek, ktorý dekóduje pomocou neurónovej siete s rýchlosťou kompresie približne 10x

V poslednej dobe, meta (predtým Facebook) predstavila svoj nový zvukový kodek s názvom EnCodec, že využíva techniky strojového učenia zvýšiť kompresný pomer bez straty kvality.

Nový prístup dokáže komprimovať a dekomprimovať zvuk v reálnom čase a dosiahnuť tak najmodernejšie zmenšenie veľkosti. kodek možno použiť na streamovanie zvuku v reálnom čase čo sa týka kódovania pre neskoršie ukladanie do súborov.

Dnes podrobne popisujeme pokrok, ktorý náš Fundamental AI Research (FAIR) dosiahol v oblasti hyperkompresie zvuku poháňaného AI. Predstavte si, že počúvate zvukovú správu od priateľa v oblasti so slabým pripojením a nezastavíte sa alebo nepadne. Náš výskum ukazuje, ako nám to môže pomôcť dosiahnuť pomocou AI.

InCodec ponúka dva modely pripravené na stiahnutie:

  1. Kauzálny model, ktorý používa vzorkovaciu frekvenciu 24 kHz, podporuje iba monofónny zvuk a je trénovaný na rôznych zvukových údajoch (vhodné na kódovanie reči). Model je možné použiť na balenie zvukových dát na prenos s bitovými rýchlosťami 1,5, 3, 6, 12 a 24 kbps.
  2. Nekauzálny model, ktorý používa vzorkovaciu frekvenciu 48 kHz, podporuje stereo zvuk a bol natrénovaný iba na hudbe. Model podporuje bitové rýchlosti 3, 6, 12 a 24 kbps.

Pre každý model bol pripravený ďalší jazykový model, ako umožňuje výrazné zvýšenie v kompresnom pomere (až 40%) bez straty kvality. Na rozdiel od predchádzajúcich projektov na aplikáciu techník strojového učenia na kompresiu zvuku, EnCodec je možné použiť nielen na balenie reči, ale aj na kompresiu hudby so vzorkovacou frekvenciou 48 kHz, zodpovedajúcou úrovni audio CD.

Podľa vývojárov nového kodeku sa prenosom bitovou rýchlosťou 64 kbps v porovnaní s formátom MP3 podarilo približne desaťnásobne zvýšiť pomer kompresie zvuku pri zachovaní rovnakej úrovne kvality (napríklad pri použití MP3 vyžaduje šírku pásma 64 kbps, na prenos s rovnakou kvalitou v EnCodec stačí 6 kbps).

Tieto údaje je potom možné dekódovať pomocou neurónovej siete. Dosiahli sme približne 10-násobnú mieru kompresie v porovnaní s MP3 pri 64 kbps, bez straty kvality. Zatiaľ čo tieto techniky boli už predtým preskúmané pre reč, sme prví, ktorí ich sfunkčnili pre 48 kHz vzorkovaný stereo zvuk (tj CD kvalita), čo je štandard pre distribúciu hudby.

Architektúra kodeku Je postavený na báze neurónovej siete s „transformatívnou“ architektúrou a je založená na štyroch väzbách: kodér, kvantizér, dekodér a diskriminátor:

  • El kodér extrahuje parametre z hlasových údajov a prevedie ich na paketovaný tok s nižšou snímkovou frekvenciou.
  • El kvantifikátor (RVQ, Residual Vector Quantizer) konvertuje výstupný tok kódovača na sady paketov, pričom komprimuje informácie vzhľadom na zvolenú bitovú rýchlosť. Výstupom kvantizéra je komprimovaná reprezentácia dát vhodná na prenos po sieti alebo uloženie na disk.
  • El dekodér dekóduje komprimovanú reprezentáciu údajov a rekonštruuje pôvodnú zvukovú vlnu.
  • El diskriminátor zlepšuje kvalitu generovaných vzoriek (vzorky) s prihliadnutím na model ľudského sluchového vnímania.

Bez ohľadu na úroveň kvality a bitovú rýchlosť sa modely používané na kódovanie a dekódovanie líšia v pomerne skromných požiadavkách na zdroje (výpočty potrebné na prevádzku v reálnom čase sa vykonávajú na jednom jadre CPU).

Nakoniec, pre tých z vás, ktorých to zaujíma, by ste mali vedieť, že referenčná implementácia EnCodec je napísaná v jazyku Python s použitím frameworku PyTorch a je licencovaná pod licenciou CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) pre nekomerčné použitie iba.

Ak máte záujem dozvedieť sa o ňom viac, podrobnosti môžete konzultovať na nasledujúci odkaz.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.