EnCodec, naujasis Meta garso kodekas

kodavimo

Kodekas yra kodekas, kuris dekoduoja naudojant neuroninį tinklą, kurio suspaudimo laipsnis yra maždaug 10 kartų

Neseniai meta (anksčiau Facebook) pristatė savo naują garso kodeką pavadinimu EnCodec, kad naudoja mašininio mokymosi metodus padidinti suspaudimo laipsnį neprarandant kokybės.

Naujasis metodas gali suspausti ir išskleisti garsą realiuoju laiku, kad būtų pasiektas moderniausias dydžio sumažinimas. kodekas gali būti naudojamas tiek garso transliacijai realiuoju laiku kaip kodavimui, kad vėliau būtų galima saugoti failus.

Šiandien mes išsamiai aprašome pažangą, kurią padarė mūsų Fundamental AI Research (FAIR) AI varomo garso hiperkompresijos srityje. Įsivaizduokite, kad klausotės draugo garso pranešimo vietovėje, kurioje yra prastas ryšys, ir jis nesustoja ir nedūžta. Mūsų tyrimai rodo, kaip galime naudoti AI, kad padėtų mums tai pasiekti.

Kodeke pasiūlyti du modelius paruošta atsisiųsti:

  1. Priežastinis modelis, kuris naudoja 24 kHz atrankos dažnį, palaiko tik monofoninį garsą ir yra išmokytas naudoti įvairius garso duomenis (tinka kalbos kodavimui). Modelis gali būti naudojamas garso duomenims pakuoti, kad jie būtų perduoti 1,5, 3, 6, 12 ir 24 kbps bitų sparta.
  2. Ne priežastinis modelis, kuris naudoja 48 kHz atrankos dažnį, palaiko stereo garsą ir buvo mokomas tik muzikos. Modelis palaiko 3, 6, 12 ir 24 kbps bitų spartą.

Kiekvienam modeliui buvo parengtas papildomas kalbos modelis, kas leidžia žymiai padidinti suspaudimo laipsniu (iki 40%) neprarandant kokybės. Skirtingai nuo ankstesnių projektų, skirtų mašininio mokymosi metodams taikyti garso glaudinimui, EnCodec gali būti naudojamas ne tik kalbos pakavimui, bet ir muzikos suspaudimui kurių diskretizavimo dažnis yra 48 kHz, atitinkantis garso kompaktinių diskų lygį.

Pasak naujojo kodeko kūrėjų, perduodant 64 kbps bitų sparta, lyginant su MP3 formatu, pavyko maždaug dešimt kartų padidinti garso suspaudimo laipsnį, išlaikant tą patį kokybės lygį (pavyzdžiui, naudojant MP3 jai reikalingas 64 kbps pralaidumas, norint perduoti tokia pat kokybe EnCodec, pakanka 6 kbps).

Tada šiuos duomenis galima iššifruoti naudojant neuroninį tinklą. Mes pasiekėme apytiksliai 10 kartų didesnį suspaudimo greitį, palyginti su MP3, esant 64 kbps, neprarandant kokybės. Nors šios kalbos technikos buvo ištirtos anksčiau, esame pirmieji, pritaikę juos 48 kHz atrinktam stereogarsui (ty CD kokybei), kuris yra muzikos platinimo standartas.

Kodeko architektūra Jis sukurtas neuroninio tinklo pagrindu su „transformuojančia“ architektūra ir yra pagrįsta keturiomis obligacijomis: koduotuvas, kvantatorius, dekoderis ir diskriminatorius:

  • El kodavimo priemonė ištraukia parametrus iš balso duomenų ir konvertuoja juos į paketinį srautą mažesniu kadrų dažniu.
  • El kiekybinis rodiklis (RVQ, Residual Vector Quantizer) konvertuoja kodavimo įrenginio išvesties srautą į paketų rinkinius, suglaudindamas informaciją, susijusią su pasirinkta bitų sparta. Kvantizerio išvestis yra suspaustas duomenų, tinkamų perduoti tinkle arba įrašyti į diską, vaizdas.
  • El dekodifikatorius iššifruoja suspaustų duomenų atvaizdą ir atkuria pradinę garso bangą.
  • El diskriminatorius gerina generuojamų mėginių (imties) kokybę, atsižvelgiant į žmogaus klausos suvokimo modelį.

Nepriklausomai nuo kokybės lygio ir bitų spartos, kodavimui ir dekodavimui naudojami modeliai skiriasi gana kukliais resursų reikalavimais (realiam darbui reikalingi skaičiavimai atliekami viename procesoriaus branduolyje).

Galiausiai, tie, kurie domisi, turėtumėte žinoti, kad nuorodos EnCodec diegimas yra parašytas Python, naudojant PyTorch sistemą ir yra licencijuotas pagal CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) licenciją nekomerciniam naudojimui. tik.

Jei norite sužinoti daugiau apie tai, išsamią informaciją galite rasti adresu šią nuorodą.


Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas. Privalomi laukai yra pažymėti *

*

*

  1. Už duomenis atsakingas: AB Internet Networks 2008 SL
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.