EnCodec, noul codec audio Meta

encodec

Encodec este un codec care decodifică folosind o rețea neuronală cu o rată de compresie de aproximativ 10x

Recent, meta (fostul Facebook) a dezvăluit noul său codec audio numit EnCodec,folosește tehnici de învățare automată pentru a crește raportul de compresie fără a pierde calitatea.

Noua abordare poate comprima și decomprima audio în timp real pentru a obține reduceri de dimensiune de ultimă generație. codecul poate fi folosit atât pentru streaming audio în timp real ca și codificare pentru stocarea ulterioară în fișiere.

Astăzi, detaliem progresele înregistrate de cercetarea noastră fundamentală AI (FAIR) în domeniul hipercompresiei audio alimentate de AI. Imaginați-vă că ascultați mesajul audio al unui prieten într-o zonă cu conectivitate slabă și fără oprire sau blocare. Cercetările noastre arată cum putem folosi AI pentru a ne ajuta să realizăm acest lucru.

InCodec ofera doua modele gata de descărcat:

  1. Un model cauzal care utilizează o frecvență de eșantionare de 24 kHz, acceptă doar audio monofonic și este antrenat pe o varietate de date audio (potrivit pentru codificarea vorbirii). Modelul poate fi folosit pentru a împacheta date audio pentru transmisie la rate de biți de 1,5, 3, 6, 12 și 24 kbps.
  2. Un model non-caucal care folosește o frecvență de eșantionare de 48 kHz, acceptă sunet stereo și a fost instruit numai pe muzică. Modelul acceptă rate de biți de 3, 6, 12 și 24 kbps.

Pentru fiecare model, a fost pregătit un model lingvistic suplimentar, ca permite o creștere semnificativă în raportul de compresie (până la 40%) fără pierderea calității. Spre deosebire de proiectele anterioare de aplicare a tehnicilor de învățare automată la compresia audio, EnCodec poate fi folosit nu numai pentru ambalarea vorbirii, ci și pentru compresia muzicii cu o frecvență de eșantionare de 48 kHz, corespunzătoare nivelului CD-urilor audio.

Potrivit dezvoltatorilor noului codec, prin transmiterea la o rată de biți de 64 kbps în comparație cu formatul MP3, aceștia au reușit să crească raportul de compresie audio de aproximativ zece ori, menținând același nivel de calitate (de exemplu, atunci când se folosește MP3). necesită o lățime de bandă de 64 kbps, pentru a transfera cu aceeași calitate în EnCodec, 6 kbps este suficient).

Aceste date pot fi apoi decodificate folosind o rețea neuronală. Am obținut o rată de compresie de aproximativ 10x comparativ cu MP3 la 64 kbps, fără pierderi de calitate. Deși aceste tehnici au fost explorate înainte pentru vorbire, noi suntem primii care le-au făcut să funcționeze pentru audio stereo eșantionat de 48 kHz (adică calitate CD), care este standardul pentru distribuția muzicii.

Arhitectura codecului Este construit pe baza unei rețele neuronale cu arhitectură „transformatoare”. și se bazează pe patru obligațiuni: codificator, cuantificator, decodor și discriminator:

  • El codificator extrage parametrii din datele vocale și îi convertește într-un flux pachetat la o rată de cadre mai mică.
  • El cuantificator (RVQ, Residual Vector Quantizer) convertește fluxul de ieșire al codificatorului în seturi de pachete, comprimând informațiile referitoare la rata de biți selectată. Ieșirea cuantificatorului este o reprezentare comprimată a datelor potrivite pentru transmiterea prin rețea sau salvarea pe disc.
  • El decodor decodifică reprezentarea datelor comprimate și reconstruiește unda sonoră originală.
  • El discriminator îmbunătățește calitatea probelor generate (probă) ținând cont de modelul percepției auditive umane.

Indiferent de nivelul de calitate și rata de biți, modelele utilizate pentru codificare și decodare diferă în cerințe de resurse destul de modeste (calculele necesare pentru funcționarea în timp real sunt efectuate pe un singur nucleu CPU).

În cele din urmă, pentru cei interesați, ar trebui să știți că implementarea de referință a EnCodec este scrisă în Python folosind cadrul PyTorch și este licențiată sub o licență CC BY-NC 4.0 (Creative Commons Attribution-NonComercial) pentru utilizare necomercială numai.

Dacă sunteți interesat să aflați mai multe despre acesta, puteți consulta detaliile la următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: AB Internet Networks 2008 SL
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.