EnCodec, nowy kodek audio Meta

kodek

Encodec to kodek, który dekoduje przy użyciu sieci neuronowej o współczynniku kompresji około 10x

Ostatnio Meta (dawniej Facebook) zaprezentował swój nowy kodek audio o nazwie EnCodec, oferuje nasz konfigurator wykorzystuje techniki uczenia maszynowego aby zwiększyć stopień kompresji bez utraty jakości.

Nowe podejście umożliwia kompresję i dekompresję dźwięku w czasie rzeczywistym w celu osiągnięcia najnowocześniejszych redukcji rozmiaru. kodek może być używany zarówno do strumieniowego przesyłania dźwięku w czasie rzeczywistym co do kodowania do późniejszego przechowywania w plikach.

Dzisiaj szczegółowo opisujemy postęp, jaki poczyniły nasze badania Fundamental AI (FAIR) w obszarze hiperkompresji dźwięku opartej na sztucznej inteligencji. Wyobraź sobie, że słuchasz wiadomości dźwiękowej znajomego w obszarze o słabej łączności, który nie zatrzymuje się ani nie ulega awarii. Nasze badania pokazują, jak możemy wykorzystać sztuczną inteligencję, aby to osiągnąć.

InCodec w ofercie dwa modele gotowe do pobrania:

  1. Model przyczynowy, który wykorzystuje częstotliwość próbkowania 24 kHz, obsługuje tylko dźwięk monofoniczny i jest szkolony na różnych danych dźwiękowych (nadających się do kodowania mowy). Model może być używany do pakowania danych audio do transmisji z szybkością transmisji 1,5, 3, 6, 12 i 24 kb/s.
  2. Model nieprzyczynowy, który wykorzystuje częstotliwość próbkowania 48 kHz, obsługuje dźwięk stereo i został wytrenowany tylko w muzyce. Model obsługuje szybkości transmisji 3, 6, 12 i 24 kb/s.

Dla każdego modelu został przygotowany dodatkowy model językowy, que lo pozwala na znaczny wzrost w stopniu kompresji (do 40%) bez utraty jakości. W przeciwieństwie do poprzednich projektów, w których zastosowano techniki uczenia maszynowego do kompresji dźwięku, EnCodec może być używany nie tylko do pakowania mowy, ale także do kompresji muzyki z częstotliwością próbkowania 48 kHz, odpowiadającą poziomowi płyt audio CD.

Według twórców nowego kodeka, dzięki transmisji z szybkością transmisji 64 kb/s w porównaniu z formatem MP3, udało im się około dziesięciokrotnie zwiększyć współczynnik kompresji dźwięku przy zachowaniu tego samego poziomu jakości (na przykład przy korzystaniu z MP3 wymaga przepustowości 64 kbps, do transferu z tą samą jakością w EnCodec wystarczy 6 kbps).

Dane te można następnie dekodować za pomocą sieci neuronowej. Osiągnęliśmy około 10x współczynnik kompresji w porównaniu do MP3 przy 64 kb/s, bez utraty jakości. Chociaż te techniki zostały już wcześniej zbadane w przypadku mowy, jako pierwsi sprawiliśmy, że działały one w przypadku próbkowanego dźwięku stereofonicznego o częstotliwości 48 kHz (tj. jakości CD), co jest standardem w dystrybucji muzyki.

Architektura kodeka Jest zbudowany w oparciu o sieć neuronową o architekturze „transformacyjnej” i opiera się na czterech wiązaniach: koder, kwantyzator, dekoder i dyskryminator:

  • El codificador wyodrębnia parametry z danych głosowych i przekształca je w strumień pakietowy z niższą szybkością klatek.
  • El kwantyfikator (RVQ, Residual Vector Quantizer) konwertuje strumień wyjściowy kodera na zestawy pakietów, kompresując informacje względem wybranej przepływności. Wyjście kwantyzatora to skompresowana reprezentacja danych odpowiednia do transmisji przez sieć lub zapisania na dysku.
  • El dekoder dekoduje skompresowaną reprezentację danych i rekonstruuje oryginalną falę dźwiękową.
  • El dyskryminator poprawia jakość generowanych próbek (próbek) z uwzględnieniem modelu percepcji słuchowej człowieka.

Niezależnie od poziomu jakości i przepływności, modele używane do kodowania i dekodowania różnią się dość skromnymi wymaganiami dotyczącymi zasobów (obliczenia wymagane do działania w czasie rzeczywistym wykonywane są na jednym rdzeniu procesora).

Wreszcie, ci z was, którzy są zainteresowani, powinni wiedzieć, że referencyjna implementacja EnCodec jest napisana w Pythonie przy użyciu frameworka PyTorch i jest licencjonowana na licencji CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) do użytku niekomercyjnego tylko.

Jeśli chcesz dowiedzieć się więcej na ten temat, możesz zapoznać się ze szczegółami pod adresem poniższy link.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: AB Internet Networks 2008 SL
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.