EnCodec, novi zvočni kodek Meta

koder

Encodec je kodek, ki dekodira z uporabo nevronske mreže s stopnjo stiskanja približno 10x

Pred kratkim Meta (prej Facebook) predstavil svoj novi zvočni kodek EnCodec, da uporablja tehnike strojnega učenja povečati kompresijsko razmerje brez izgube kakovosti.

Novi pristop lahko stisne in razpakira zvok v realnem času, da doseže najsodobnejše zmanjšanje velikosti. kodek se lahko uporablja tako za pretakanje zvoka v realnem času kar zadeva kodiranje za poznejše shranjevanje v datotekah.

Danes podrobno opisujemo napredek naše temeljne raziskave umetne inteligence (FAIR) na področju hiperkompresije zvoka, ki jo poganja AI. Predstavljajte si, da poslušate prijateljevo zvočno sporočilo na območju s slabo povezavo in se ne ustavite ali zrušite. Naše raziskave kažejo, kako lahko uporabimo AI, da nam to pomaga doseči.

InCodec ponujajo dva modela pripravljeno za prenos:

  1. Vzročni model, ki uporablja frekvenco vzorčenja 24 kHz, podpira samo monofonični zvok in se uri na različnih zvočnih podatkih (primerno za kodiranje govora). Model se lahko uporablja za pakiranje zvočnih podatkov za prenos pri bitnih hitrostih 1,5, 3, 6, 12 in 24 kbps.
  2. Nevzročni model, ki uporablja hitrost vzorčenja 48 kHz, podpira stereo zvok in je bil usposobljen samo za glasbo. Model podpira bitne hitrosti 3, 6, 12 in 24 kbps.

Za vsak model je pripravljen dodatni jezikovni model, kot omogoča znatno povečanje v kompresijskem razmerju (do 40%) brez izgube kakovosti. Za razliko od prejšnjih projektov za uporabo tehnik strojnega učenja za stiskanje zvoka, EnCodec se lahko uporablja ne samo za pakiranje govora, ampak tudi za stiskanje glasbe s frekvenco vzorčenja 48 kHz, kar ustreza ravni zvočnih CD-jev.

Po besedah ​​razvijalcev novega kodeka jim je s prenosom pri bitni hitrosti 64 kbps v primerjavi s formatom MP3 uspelo približno desetkrat povečati kompresijsko razmerje zvoka ob ohranitvi enake ravni kakovosti (na primer pri uporabi MP3 zahteva pasovno širino 64 kbps, za prenos z enako kakovostjo v EnCodec je dovolj 6 kbps).

Te podatke je nato mogoče dekodirati z uporabo nevronske mreže. Dosegli smo približno 10-kratno stopnjo stiskanja v primerjavi z MP3 pri 64 kbps brez izgube kakovosti. Medtem ko so bile te tehnike že raziskane za govor, smo prvi, ki jim omogočamo delovanje za 48 kHz vzorčen stereo zvok (tj. kakovost CD-ja), kar je standard za distribucijo glasbe.

Arhitektura kodeka Zgrajena je na osnovi nevronske mreže s »transformativno« arhitekturo in temelji na štirih obveznicah: kodirnik, kvantizator, dekoder in diskriminator:

  • El kodirnik izvleče parametre iz glasovnih podatkov in jih pretvori v paketni tok z nižjo hitrostjo sličic.
  • El kvantifikator (RVQ, Residual Vector Quantizer) pretvori izhodni tok kodirnika v nize paketov, pri čemer stisne informacije glede na izbrano bitno hitrost. Izhod kvantizatorja je stisnjena predstavitev podatkov, primerna za prenos po omrežju ali shranjevanje na disk.
  • El dekoder dekodira predstavitev stisnjenih podatkov in rekonstruira izvirni zvočni val.
  • El diskriminator izboljša kakovost generiranih vzorcev (vzorca) ob upoštevanju modela človeškega slušnega zaznavanja.

Ne glede na raven kakovosti in bitno hitrost se modeli, ki se uporabljajo za kodiranje in dekodiranje, razlikujejo po dokaj skromnih zahtevah glede virov (izračuni, potrebni za delovanje v realnem času, se izvajajo na enem jedru procesorja).

Za vse tiste, ki vas zanima, morate vedeti, da je referenčna izvedba EnCodec napisana v Pythonu z uporabo ogrodja PyTorch in je licencirana pod licenco CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) za nekomercialno uporabo. samo.

Če vas zanima več o tem, si lahko ogledate podrobnosti na naslednjo povezavo.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Odgovoren za podatke: AB Internet Networks 2008 SL
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.