EnCodec, novi Meta audio kodek

encodec

Encodec je kodek koji dekodira pomoću neuronske mreže sa stopom kompresije od približno 10x

Nedavno Meta (bivši Facebook) predstavio svoj novi audio kodek pod nazivom EnCodec, Que koristi tehnike mašinskog učenja za povećanje omjera kompresije bez gubitka kvalitete.

Novi pristup može komprimirati i dekompresirati zvuk u realnom vremenu kako bi se postigla najmodernija smanjenja veličine. kodek može se koristiti i za streaming zvuka u realnom vremenu što se tiče kodiranja za kasnije skladištenje u fajlovima.

Danas opisujemo napredak koji je naše Fundamentalno istraživanje umjetne inteligencije (FAIR) postiglo u području hiperkompresije zvuka pomoću AI. Zamislite da slušate audio poruku prijatelja u području sa lošom vezom, a da se ne zaustavljate ili rušite. Naše istraživanje pokazuje kako možemo koristiti AI da nam pomogne da to postignemo.

InCodec nude dva modela spreman za preuzimanje:

  1. Kauzalni model koji koristi brzinu uzorkovanja od 24 kHz, podržava samo monofoni zvuk i obučen je na različitim audio podacima (pogodno za kodiranje govora). Model se može koristiti za pakovanje audio podataka za prenos pri brzinama od 1,5, 3, 6, 12 i 24 kbps.
  2. Ne-kauzalni model koji koristi brzinu uzorkovanja od 48 kHz, podržava stereo zvuk i obučen je samo za muziku. Model podržava bitrate od 3, 6, 12 i 24 kbps.

Za svaki model pripremljen je dodatni jezički model, šta omogućava značajno povećanje u omjeru kompresije (do 40%) bez gubitka kvalitete. Za razliku od prethodnih projekata primjene tehnika strojnog učenja na kompresiju zvuka, EnCodec se može koristiti ne samo za govorno pakovanje, već i za kompresiju muzike sa frekvencijom uzorkovanja od 48 kHz, što odgovara nivou audio CD-a.

Prema rečima programera novog kodeka, prenosom brzinom od 64 kbps u poređenju sa MP3 formatom, uspeli su da povećaju kompresiju zvuka za oko deset puta uz zadržavanje istog nivoa kvaliteta (na primer, kada se koristi MP3 zahtijeva propusni opseg od 64 kbps, za prijenos istog kvaliteta u EnCodec-u, dovoljno je 6 kbps).

Ovi podaci se zatim mogu dekodirati pomoću neuronske mreže. Ostvarili smo približnu stopu kompresije 10x u poređenju sa MP3 pri 64kbps, bez gubitka kvaliteta. Iako su ove tehnike ranije istražene za govor, mi smo prvi koji je omogućio da radi za 48 kHz uzorkovani stereo zvuk (tj. CD kvalitet), što je standard za distribuciju muzike.

Arhitektura kodeka Izgrađen je na bazi neuronske mreže sa "transformativnom" arhitekturom i zasniva se na četiri obveznice: enkoder, kvantizator, dekoder i diskriminator:

  • El koder izdvaja parametre iz glasovnih podataka i pretvara ih u paketizirani tok pri nižoj brzini kadrova.
  • El kvantifikator (RVQ, Residual Vector Quantizer) pretvara izlazni tok enkodera u skupove paketa, komprimirajući informacije u odnosu na odabranu brzinu prijenosa. Izlaz kvantizatora je komprimovani prikaz podataka pogodnih za prijenos preko mreže ili spremanje na disk.
  • El dekoder dekodira kompresovani prikaz podataka i rekonstruiše originalni zvučni talas.
  • El diskriminator poboljšava kvalitet generisanih uzoraka (uzorka) uzimajući u obzir model ljudske slušne percepcije.

Bez obzira na nivo kvaliteta i bitrate, modeli koji se koriste za kodiranje i dekodiranje razlikuju se po prilično skromnim zahtevima za resursima (kalkulacije potrebne za rad u realnom vremenu izvode se na jednom CPU jezgru).

Konačno, za one od vas koji ste zainteresirani, trebali biste znati da je referentna implementacija EnCodec-a napisana na Python-u koristeći PyTorch okvir i licencirana je pod CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) licencom za nekomercijalnu upotrebu samo.

Ako ste zainteresirani da saznate više o tome, možete pogledati detalje na sljedeći link.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Odgovoran za podatke: AB Internet Networks 2008 SL
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.