EnCodec, ang bagong Meta audio codec

encodec

Ang Encodec ay isang codec na nagde-decode gamit ang isang neural network na may compression rate na humigit-kumulang 10x

Kamakailan lamang meta (dating Facebook) inilabas ang bagong audio codec nito na tinatawag na EnCodec, ito gumagamit ng mga diskarte sa pag-aaral ng makina upang madagdagan ang ratio ng compression nang hindi nawawala ang kalidad.

Ang bagong diskarte ay maaaring mag-compress at mag-decompress ng audio sa real time upang makamit ang mga makabagong pagbawas sa laki. ang codec ay maaaring gamitin para sa parehong streaming audio sa real time tulad ng para sa pag-encode para sa pag-iimbak sa ibang pagkakataon sa mga file.

Ngayon, idinedetalye namin ang pag-unlad na nagawa ng aming Fundamental AI Research (FAIR) sa larangan ng AI-powered audio hyper-compression. Isipin ang pakikinig sa audio message ng isang kaibigan sa isang lugar na may mahinang koneksyon at hindi tumitigil o nag-crash. Ipinapakita ng aming pananaliksik kung paano namin magagamit ang AI para tulungan kaming makamit ito.

InCodec nag-aalok ng dalawang modelo handang i-download:

  1. Isang causal model na gumagamit ng 24 kHz sample rate, sumusuporta lang sa monophonic na audio, at sinanay sa iba't ibang audio data (angkop para sa speech encoding). Maaaring gamitin ang modelo upang mag-pack ng audio data para sa paghahatid sa mga bit rate na 1,5, 3, 6, 12 at 24 kbps.
  2. Isang non-causal na modelo na gumagamit ng 48kHz sample rate, sumusuporta sa stereo sound, at sinanay sa musika lang. Sinusuportahan ng modelo ang mga bit rate na 3, 6, 12 at 24 kbps.

Para sa bawat modelo, isang karagdagang modelo ng wika ang inihanda, bilang nagbibigay-daan para sa isang makabuluhang pagtaas sa compression ratio (hanggang 40%) nang walang pagkawala ng kalidad. Hindi tulad ng mga nakaraang proyekto para maglapat ng mga diskarte sa pag-aaral ng machine sa audio compression, Maaaring gamitin ang EnCodec hindi lamang para sa speech packaging, kundi pati na rin para sa music compression na may dalas ng sampling na 48 kHz, na tumutugma sa antas ng mga audio CD.

Ayon sa mga nag-develop ng bagong codec, sa pamamagitan ng pagpapadala sa isang bit rate na 64 kbps kumpara sa MP3 format, pinamamahalaang nilang taasan ang audio compression ratio ng halos sampung beses habang pinapanatili ang parehong antas ng kalidad (halimbawa, kapag gumagamit ng MP3 nangangailangan ito ng bandwidth na 64 kbps, para maglipat na may parehong kalidad sa EnCodec, sapat na ang 6 kbps).

Ang data na ito ay maaaring ma-decode gamit ang isang neural network. Nakamit namin ang tinatayang 10x na rate ng compression kumpara sa MP3 sa 64kbps, nang walang pagkawala ng kalidad. Habang ang mga diskarteng ito ay na-explore na dati para sa pagsasalita, kami ang unang gumawa nito para sa 48 kHz na sample na stereo audio (ibig sabihin, kalidad ng CD), na siyang pamantayan para sa pamamahagi ng musika.

Ang arkitektura ng codec Ito ay binuo batay sa isang neural network na may "transformative" na arkitektura at nakabatay sa apat na bono: encoder, quantizer, decoder at discriminator:

  • El encoder kinukuha ang mga parameter mula sa data ng boses at kino-convert ito sa isang naka-packet na stream sa mas mababang frame rate.
  • El quantifier (RVQ, Residual Vector Quantizer) kino-convert ang stream ng output ng encoder sa mga hanay ng mga packet, na pini-compress ang impormasyong nauugnay sa napiling bit rate. Ang output ng quantizer ay isang naka-compress na representasyon ng data na angkop para sa paghahatid sa network o pag-save sa disk.
  • El decoder nagde-decode ng naka-compress na representasyon ng data at nire-reconstruct ang orihinal na sound wave.
  • El discriminator pinapabuti ang kalidad ng mga nabuong sample (sample) na isinasaalang-alang ang modelo ng pandama ng pandinig ng tao.

Anuman ang antas ng kalidad at bitrate, ang mga modelong ginagamit para sa pag-encode at pag-decode ay naiiba sa medyo katamtamang mga kinakailangan sa mapagkukunan (ang mga kalkulasyon na kinakailangan para sa real-time na operasyon ay ginagawa sa isang CPU core).

Sa wakas, para sa iyo na interesado, dapat mong malaman na ang reference na pagpapatupad ng EnCodec ay nakasulat sa Python gamit ang PyTorch framework at lisensyado sa ilalim ng lisensya ng CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) para sa hindi pangkomersyal na paggamit lamang.

Kung interesado kang matuto nang higit pa tungkol dito, maaari mong konsultahin ang mga detalye sa ang sumusunod na link.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: AB Internet Networks 2008 SL
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.