EnCodec, uus Meta helikoodek

kodeerija

Kodek on kodek, mis dekodeerib umbes 10-kordse tihendusastmega närvivõrgu abil

Hiljuti Meta (endine Facebook) avalikustas oma uue helikoodeki nimega EnCodec, et kasutab masinõppe tehnikaid tihendusastme suurendamiseks kvaliteeti kaotamata.

Uus lähenemisviis suudab heli reaalajas tihendada ja lahti pakkida, et saavutada tipptasemel suuruse vähendamine. koodek saab kasutada nii heli reaalajas voogesitamiseks nagu kodeerimiseks hilisemaks failidesse salvestamiseks.

Täna kirjeldame üksikasjalikult edusamme, mida meie Fundamental AI Research (FAIR) on AI-toega heli hüpertihendamise valdkonnas teinud. Kujutage ette, et kuulate sõbra helisõnumit halva ühendusega piirkonnas ning ei peatu ega jookse kokku. Meie uuringud näitavad, kuidas saame kasutada tehisintellekti selle saavutamiseks.

InCodec pakkuda kahte mudelit allalaadimiseks valmis:

  1. Põhjuslik mudel, mis kasutab 24 kHz diskreetimissagedust, toetab ainult monofoonilist heli ja on treenitud mitmesuguste heliandmetega (sobib kõne kodeerimiseks). Mudelit saab kasutada heliandmete pakkimiseks edastamiseks bitikiirusega 1,5, 3, 6, 12 ja 24 kbps.
  2. Mittepõhjuslik mudel, mis kasutab 48 kHz diskreetimissagedust, toetab stereoheli ja on õpetatud ainult muusikale. Mudel toetab bitikiirust 3, 6, 12 ja 24 kbps.

Iga mudeli jaoks on koostatud täiendav keelemudel, kui võimaldab oluliselt suurendada tihendusastmes (kuni 40%) ilma kvaliteeti kaotamata. Erinevalt varasematest projektidest, mille eesmärk on rakendada heli tihendamisel masinõppe tehnikaid, EnCodeci saab kasutada mitte ainult kõne pakendamiseks, vaid ka muusika tihendamiseks diskreetimissagedusega 48 kHz, mis vastab audio-CD tasemele.

Uue koodeki arendajate sõnul õnnestus neil MP64-vorminguga võrreldes bitikiirusega 3 kbps edastades heli tihendusastet umbes kümme korda tõsta, säilitades samal ajal samal kvaliteeditaseme (näiteks MP3 kasutamisel see nõuab ribalaiust 64 kbps, sama kvaliteediga edastamiseks EnCodecis piisab 6 kbps-st).

Neid andmeid saab seejärel närvivõrgu abil dekodeerida. Saime umbes 10-kordse tihendussageduse võrreldes MP3-ga kiirusel 64 kbit/s, ilma et kvaliteet langeks. Kuigi neid tehnikaid on kõne jaoks varem uuritud, oleme esimesed, kes pani selle tööle 48 kHz diskreetse stereoheli (st CD-kvaliteedi) jaoks, mis on muusika levitamise standard.

Kodeki arhitektuur See on üles ehitatud närvivõrgu baasil "transformatiivse" arhitektuuriga ja see põhineb neljal võlakirjal: kodeerija, kvantiseerija, dekooder ja diskrimineerija:

  • El kodeerija eraldab parameetrid kõneandmetest ja teisendab need väiksema kaadrisagedusega pakettvooks.
  • El kvantor (RVQ, Residual Vector Quantizer) teisendab kodeerija väljundvoo pakettide komplektideks, tihendades teavet valitud bitikiiruse suhtes. Kvantiseerija väljund on andmete tihendatud esitus, mis sobib üle võrgu edastamiseks või kettale salvestamiseks.
  • El dekooder dekodeerib tihendatud andmete esituse ja rekonstrueerib algse helilaine.
  • El diskrimineerija parandab genereeritud proovide (proovi) kvaliteeti, võttes arvesse inimese kuulmistaju mudelit.

Olenemata kvaliteeditasemest ja bitikiirusest erinevad kodeerimiseks ja dekodeerimiseks kasutatavad mudelid üsna tagasihoidlike ressursivajaduste poolest (reaalajas tööks vajalikud arvutused tehakse ühel CPU tuumal).

Lõpuks, need, kes on huvitatud, peaksite teadma, et EnCodeci viiterakendus on kirjutatud Pythonis, kasutades PyTorchi raamistikku ja litsentsitud CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) litsentsi alusel mitteäriliseks kasutamiseks. ainult.

Kui olete huvitatud selle kohta lisateabe saamiseks, vaadake üksikasju aadressil järgmine link.


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutav: AB Internet Networks 2008 SL
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.