EnCodec, il nuovo codec audio Meta

codificare

Encodec è un codec che decodifica utilizzando una rete neurale con un tasso di compressione di circa 10x

Recentemente, Meta (ex Facebook) ha presentato il suo nuovo codec audio chiamato EnCodec, che utilizza tecniche di apprendimento automatico per aumentare il rapporto di compressione senza perdere qualità.

Il nuovo approccio può comprimere e decomprimere l'audio in tempo reale per ottenere riduzioni delle dimensioni all'avanguardia. il codec può essere utilizzato sia per lo streaming audio in tempo reale per quanto riguarda la codifica per l'archiviazione successiva nei file.

Oggi descriviamo in dettaglio i progressi compiuti dalla nostra ricerca sull'IA fondamentale (FAIR) nell'area dell'ipercompressione audio basata sull'intelligenza artificiale. Immagina di ascoltare il messaggio audio di un amico in un'area con scarsa connettività e senza fermarti o bloccarsi. La nostra ricerca mostra come possiamo utilizzare l'IA per aiutarci a raggiungere questo obiettivo.

InCodec offrire due modelli pronto per il download:

  1. Un modello causale che utilizza una frequenza di campionamento di 24 kHz, supporta solo l'audio monofonico ed è addestrato su una varietà di dati audio (adatto per la codifica vocale). Il modello può essere utilizzato per comprimere dati audio per la trasmissione a velocità in bit di 1,5, 3, 6, 12 e 24 kbps.
  2. Un modello non causale che utilizza una frequenza di campionamento di 48 kHz, supporta il suono stereo ed è stato addestrato solo sulla musica. Il modello supporta bit rate di 3, 6, 12 e 24 kbps.

Per ogni modello è stato predisposto un ulteriore modello linguistico, come consente un aumento significativo nel rapporto di compressione (fino al 40%) senza perdita di qualità. A differenza dei progetti precedenti per l'applicazione di tecniche di apprendimento automatico alla compressione audio, EnCodec può essere utilizzato non solo per la sintesi vocale, ma anche per la compressione della musica con una frequenza di campionamento di 48 kHz, corrispondente al livello dei CD audio.

Secondo gli sviluppatori del nuovo codec, trasmettendo a un bit rate di 64 kbps rispetto al formato MP3, sono riusciti ad aumentare il rapporto di compressione audio di una decina di volte mantenendo lo stesso livello di qualità (ad esempio quando si utilizza MP3 richiede una larghezza di banda di 64 kbps, per trasferire con la stessa qualità in EnCodec, sono sufficienti 6 kbps).

Questi dati possono quindi essere decodificati utilizzando una rete neurale. Abbiamo raggiunto un tasso di compressione approssimativo di 10 volte rispetto all'MP3 a 64 kbps, senza perdita di qualità. Sebbene queste tecniche siano state esplorate in precedenza per il parlato, siamo i primi a farlo funzionare per l'audio stereo campionato a 48 kHz (cioè la qualità CD), che è lo standard per la distribuzione della musica.

L'architettura del codec È costruito sulla base di una rete neurale con architettura “trasformativa”. e si basa su quattro legami: codificatore, quantizzatore, decodificatore e discriminatore:

  • El codificatore estrae i parametri dai dati vocali e li converte in un flusso pacchettizzato a un frame rate inferiore.
  • El quantificatore (RVQ, Residual Vector Quantizer) converte il flusso di uscita dell'encoder in set di pacchetti, comprimendo le informazioni relative al bit rate selezionato. L'uscita del quantizzatore è una rappresentazione compressa dei dati adatti alla trasmissione in rete o al salvataggio su disco.
  • El decodificatore decodifica la rappresentazione dei dati compressi e ricostruisce l'onda sonora originale.
  • El discriminatore migliora la qualità dei campioni generati (campione) tenendo conto del modello di percezione uditiva umana.

Indipendentemente dal livello di qualità e dal bitrate, i modelli utilizzati per la codifica e la decodifica differiscono per requisiti di risorse abbastanza modesti (i calcoli richiesti per il funzionamento in tempo reale vengono eseguiti su un core della CPU).

Infine, per quelli di voi interessati, dovreste sapere che l'implementazione di riferimento di EnCodec è scritta in Python utilizzando il framework PyTorch ed è concessa in licenza con una licenza CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) per uso non commerciale solo.

Se sei interessato a saperne di più, puoi consultare i dettagli all'indirizzo il seguente collegamento.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile del trattamento: AB Internet Networks 2008 SL
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.