EnCodec, jaunais Meta audio kodeks

kodētājs

Kodeks ir kodeks, kas dekodē, izmantojot neironu tīklu ar saspiešanas ātrumu aptuveni 10x

Nesen meta (agrāk Facebook) atklāja savu jauno audio kodeku ar nosaukumu EnCodec, ka izmanto mašīnmācīšanās metodes lai palielinātu kompresijas pakāpi, nezaudējot kvalitāti.

Jaunā pieeja var saspiest un atspiest audio reāllaikā, lai sasniegtu vismodernākos izmēra samazinājumus. kodeku var izmantot gan audio straumēšanai reāllaikā kā kodēšanai vēlākai glabāšanai failos.

Šodien mēs detalizēti aprakstām progresu, ko mūsu Fundamentālā AI izpēte (FAIR) ir panākusi ar AI darbināmas audio hipersaspiešanas jomā. Iedomājieties, ka klausāties drauga audio ziņojumu apgabalā ar sliktu savienojamību un neapstājas vai avarē. Mūsu pētījumi parāda, kā mēs varam izmantot AI, lai palīdzētu mums to sasniegt.

InCodec piedāvājam divus modeļus gatavs lejupielādei:

  1. Cēloņsakarības modelis, kas izmanto 24 kHz izlases frekvenci, atbalsta tikai monofonisku audio un ir apmācīts par dažādiem audio datiem (piemērots runas kodēšanai). Šo modeli var izmantot, lai iesaiņotu audio datus pārraidei ar bitu pārraides ātrumu 1,5, 3, 6, 12 un 24 kbps.
  2. Modelis bez cēloņsakarības, kas izmanto 48 kHz izlases frekvenci, atbalsta stereo skaņu un tika apmācīts tikai par mūziku. Modelis atbalsta bitu pārraides ātrumu 3, 6, 12 un 24 kbps.

Katram modelim ir sagatavots papildu valodas modelis, ko ļauj ievērojami palielināt kompresijas pakāpē (līdz 40%), nezaudējot kvalitāti. Atšķirībā no iepriekšējiem projektiem, kuros audio saspiešanai tika izmantotas mašīnmācīšanās metodes, EnCodec var izmantot ne tikai runas iesaiņošanai, bet arī mūzikas saspiešanai ar iztveršanas frekvenci 48 kHz, kas atbilst audio kompaktdisku līmenim.

Saskaņā ar jaunā kodeka izstrādātāju teikto, pārraidot ar bitu ātrumu 64 kbps salīdzinājumā ar MP3 formātu, viņiem izdevies aptuveni desmit reizes palielināt audio saspiešanas pakāpi, saglabājot to pašu kvalitātes līmeni (piemēram, izmantojot MP3 tam nepieciešams 64 kbps joslas platums, lai pārsūtītu ar tādu pašu kvalitāti EnCodec, pietiek ar 6 kbps).

Pēc tam šos datus var atšifrēt, izmantojot neironu tīklu. Mēs sasniedzām aptuveni 10 reizes lielāku saspiešanas ātrumu salīdzinājumā ar MP3 ar ātrumu 64 kb/s, nezaudējot kvalitāti. Lai gan šīs runas metodes ir pētītas iepriekš, mēs esam pirmie, kas ļāvuši tai darboties 48 kHz izlases stereo audio (ti, CD kvalitātes), kas ir mūzikas izplatīšanas standarts.

Kodeka arhitektūra Tas ir veidots, pamatojoties uz neironu tīklu ar "transformatīvu" arhitektūru un tā pamatā ir četras obligācijas: kodētājs, kvantētājs, dekodētājs un diskriminators:

  • El kodētājs izņem parametrus no balss datiem un pārvērš tos pakešu straumē ar mazāku kadru ātrumu.
  • El kvantators (RVQ, Residual Vector Quantizer) pārveido kodētāja izvades straumi pakešu kopās, saspiežot informāciju attiecībā pret atlasīto bitu pārraides ātrumu. Kvantizera izvade ir saspiests datu attēlojums, kas piemērots pārsūtīšanai tīklā vai saglabāšanai diskā.
  • El dekodētājs atkodē saspiesto datu attēlojumu un rekonstruē sākotnējo skaņas vilni.
  • El diskriminētājs uzlabo ģenerēto paraugu (izlases) kvalitāti, ņemot vērā cilvēka dzirdes uztveres modeli.

Neatkarīgi no kvalitātes līmeņa un bitu pārraides ātruma, kodēšanai un dekodēšanai izmantotie modeļi atšķiras ar diezgan pieticīgām resursu prasībām (reāllaika darbībai nepieciešamie aprēķini tiek veikti uz viena CPU kodola).

Visbeidzot, tiem, kurus interesē, jums jāzina, ka EnCodec atsauces ieviešana ir rakstīta Python, izmantojot PyTorch sistēmu, un ir licencēta saskaņā ar CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) licenci nekomerciālai lietošanai. tikai.

Ja vēlaties uzzināt vairāk par to, varat uzzināt sīkāku informāciju vietnē šo saiti.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: AB Internet Networks 2008 SL
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.