EnCodec, o novo codec de áudio Meta

codificar

Encodec é um codec que decodifica usando uma rede neural com uma taxa de compressão de aproximadamente 10x

Faz pouco, Meta (ex-Facebook) revelou seu novo codec de áudio chamado EnCodec, que usa técnicas de aprendizado de máquina para aumentar a taxa de compressão sem perder qualidade.

A nova abordagem pode compactar e descompactar áudio em tempo real para obter reduções de tamanho de última geração. o codec pode ser usado tanto para streaming de áudio em tempo real quanto à codificação para armazenamento posterior em arquivos.

Hoje, estamos detalhando o progresso que nossa Pesquisa Fundamental de IA (FAIR) fez na área de hipercompressão de áudio com tecnologia de IA. Imagine ouvir a mensagem de áudio de um amigo em uma área com pouca conectividade e não parar ou travar. Nossa pesquisa mostra como podemos usar a IA para nos ajudar a conseguir isso.

InCodec oferecer dois modelos pronto para baixar:

  1. Um modelo causal que usa uma taxa de amostragem de 24 kHz, suporta apenas áudio monofônico e é treinado em uma variedade de dados de áudio (adequado para codificação de fala). O modelo pode ser usado para empacotar dados de áudio para transmissão em taxas de bits de 1,5, 3, 6, 12 e 24 kbps.
  2. Um modelo não causal que usa uma taxa de amostragem de 48kHz, suporta som estéreo e foi treinado apenas em música. O modelo suporta taxas de bits de 3, 6, 12 e 24 kbps.

Para cada modelo, um modelo de linguagem adicional foi preparado, como permite um aumento significativo na taxa de compressão (até 40%) sem perda de qualidade. Ao contrário de projetos anteriores para aplicar técnicas de aprendizado de máquina à compactação de áudio, O EnCodec pode ser usado não apenas para empacotamento de fala, mas também para compactação de música com uma frequência de amostragem de 48 kHz, correspondente ao nível dos CDs de áudio.

De acordo com os desenvolvedores do novo codec, ao transmitir a uma taxa de bits de 64 kbps em relação ao formato MP3, eles conseguiram aumentar a taxa de compactação de áudio em cerca de dez vezes mantendo o mesmo nível de qualidade (por exemplo, ao usar MP3 requer uma largura de banda de 64 kbps, para transferir com a mesma qualidade em EnCodec, 6 kbps são suficientes).

Esses dados podem então ser decodificados usando uma rede neural. Alcançamos uma taxa de compressão aproximada de 10x em relação ao MP3 a 64kbps, sem perda de qualidade. Embora essas técnicas tenham sido exploradas antes para fala, somos os primeiros a fazê-lo funcionar para áudio estéreo amostrado de 48 kHz (ou seja, qualidade de CD), que é o padrão para distribuição de música.

A arquitetura do codec Ele é construído com base em uma rede neural com arquitetura “transformadora” e é baseado em quatro títulos: codificador, quantizador, decodificador e discriminador:

  • El codificador extrai os parâmetros dos dados de voz e os converte em um fluxo empacotado a uma taxa de quadros mais baixa.
  • El quantificador (RVQ, Residual Vector Quantizer) converte o fluxo de saída do codificador em conjuntos de pacotes, comprimindo a informação relativa à taxa de bits selecionada. A saída do quantizador é uma representação compactada dos dados adequados para transmissão pela rede ou salvamento em disco.
  • El decodificador decodifica a representação de dados compactados e reconstrói a onda sonora original.
  • El discriminador melhora a qualidade das amostras geradas (amostra) levando em consideração o modelo de percepção auditiva humana.

Independentemente do nível de qualidade e da taxa de bits, os modelos usados ​​para codificação e decodificação diferem em requisitos de recursos bastante modestos (os cálculos necessários para operação em tempo real são realizados em um núcleo de CPU).

Finalmente, para aqueles que estão interessados, você deve saber que a implementação de referência do EnCodec é escrita em Python usando a estrutura PyTorch e está licenciada sob uma licença CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) para uso não comercial só.

Se você estiver interessado em saber mais sobre isso, você pode consultar os detalhes em o seguinte link.


Deixe um comentário

Seu endereço de email não será publicado. Campos obrigatórios são marcados com *

*

*

  1. Responsável pelos dados: AB Internet Networks 2008 SL
  2. Finalidade dos dados: Controle de SPAM, gerenciamento de comentários.
  3. Legitimação: Seu consentimento
  4. Comunicação de dados: Os dados não serão comunicados a terceiros, exceto por obrigação legal.
  5. Armazenamento de dados: banco de dados hospedado pela Occentus Networks (UE)
  6. Direitos: A qualquer momento você pode limitar, recuperar e excluir suas informações.