EnCodec, kodiku i ri audio Meta

kodek

Encodec është një kodek që dekodon duke përdorur një rrjet nervor me një shkallë kompresimi prej afërsisht 10x

Kohët e fundit, Meta (dikur Facebook) zbuloi kodekun e ri audio të quajtur EnCodec,përdor teknikat e mësimit të makinerive për të rritur raportin e ngjeshjes pa humbur cilësinë.

Qasja e re mund të kompresojë dhe dekompresojë audion në kohë reale për të arritur reduktime të përmasave moderne. kodec mund të përdoret si për transmetim audio në kohë reale si për kodimin për ruajtjen e mëvonshme në skedarë.

Sot, ne po detajojmë progresin që ka bërë Kërkimi ynë Fundamental i AI (FAIR) në fushën e hiperkompresimit të audios me fuqi nga AI. Imagjinoni të dëgjoni mesazhin audio të një miku në një zonë me lidhje të dobët dhe të mos ndaloni ose të përplaseni. Hulumtimi ynë tregon se si mund të përdorim AI për të na ndihmuar ta arrijmë këtë.

Në Codec ofrojnë dy modele gati për shkarkim:

  1. Një model shkakësor që përdor një shpejtësi kampionimi 24 kHz, mbështet vetëm audio monofonike dhe është trajnuar në një shumëllojshmëri të dhënash audio (të përshtatshme për kodimin e të folurit). Modeli mund të përdoret për të paketuar të dhënat audio për transmetim me shpejtësi bit prej 1,5, 3, 6, 12 dhe 24 kbps.
  2. Një model jo shkakësor që përdor një shpejtësi kampionimi 48 kHz, mbështet tingullin stereo dhe është trajnuar vetëm për muzikë. Modeli mbështet shpejtësi bit prej 3, 6, 12 dhe 24 kbps.

Për çdo model është përgatitur një model gjuhësor shtesë, çfarëdo mundëson një rritje të konsiderueshme në raportin e ngjeshjes (deri në 40%) pa humbje të cilësisë. Ndryshe nga projektet e mëparshme për të aplikuar teknikat e mësimit të makinerive në kompresimin e audios, EnCodec mund të përdoret jo vetëm për paketimin e të folurit, por edhe për kompresimin e muzikës me një frekuencë kampionimi prej 48 kHz, që korrespondon me nivelin e CD-ve audio.

Sipas zhvilluesve të kodekut të ri, duke transmetuar me një shpejtësi prej 64 kbps në krahasim me formatin MP3, ata arritën të rrisin raportin e kompresimit të audios me rreth dhjetë herë duke ruajtur të njëjtin nivel cilësie (për shembull, kur përdorni MP3 kërkon një brez prej 64 kbps, për të transferuar me të njëjtën cilësi në EnCodec mjaftojnë 6 kbps).

Këto të dhëna më pas mund të deshifrohen duke përdorur një rrjet nervor. Ne kemi arritur një shkallë të përafërt ngjeshjeje 10x në krahasim me MP3 në 64 kbps, pa humbje të cilësisë. Ndërsa këto teknika janë eksploruar më parë për të folurin, ne jemi të parët që e bëjmë atë të funksionojë për audio stereo të mostrës 48 kHz (dmth. cilësi CD), që është standardi për shpërndarjen e muzikës.

Arkitektura e kodekut Është ndërtuar mbi bazën e një rrjeti nervor me arkitekturë “transformuese”. dhe bazohet në katër obligacione: kodues, kuantizues, dekoder dhe diskriminues:

  • El encoder nxjerr parametrat nga të dhënat zanore dhe i konverton ato në një transmetim të paketuar me një shpejtësi më të ulët kuadri.
  • El kuantifikues (RVQ, Residual Vector Quantizer) konverton rrjedhën e daljes së koduesit në grupe paketash, duke kompresuar informacionin në lidhje me shpejtësinë e bitit të zgjedhur. Prodhimi i kuantizuesit është një paraqitje e ngjeshur e të dhënave të përshtatshme për transmetim në rrjet ose për t'u ruajtur në disk.
  • El dekodues dekodon paraqitjen e të dhënave të ngjeshur dhe rindërton valën origjinale të zërit.
  • El diskriminues përmirëson cilësinë e mostrave të gjeneruara (kampionit) duke marrë parasysh modelin e perceptimit dëgjimor të njeriut.

Pavarësisht nga niveli i cilësisë dhe shpejtësia e biteve, modelet e përdorura për kodim dhe dekodim ndryshojnë në kërkesat mjaft modeste të burimeve (llogaritjet e kërkuara për funksionimin në kohë reale kryhen në një bërthamë CPU).

Së fundi, për ata prej jush që janë të interesuar, duhet të dini se zbatimi i referencës së EnCodec është shkruar në Python duke përdorur kornizën PyTorch dhe është i licencuar nën një licencë CC BY-NC 4.0 (Creative Commons Attribution-JoCommercial) për përdorim jokomercial vetëm.

Nëse jeni të interesuar të mësoni më shumë rreth tij, mund të konsultoni detajet në lidhja e mëposhtme.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: AB Internet Networks 2008 SL
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.