새로운 메타 오디오 코덱, EnCodec

인코딩

Encodec은 압축률이 약 10배인 신경망을 사용하여 디코딩하는 코덱입니다.

최근에 메타 (구 페이스북) EnCodec이라는 새로운 오디오 코덱을 발표했습니다. 해적 기계 학습 기술을 사용 품질을 잃지 않고 압축률을 높이려면.

새로운 접근 방식은 오디오를 실시간으로 압축 및 압축 해제하여 최첨단 크기 감소를 달성할 수 있습니다. 코덱 실시간 스트리밍 오디오 모두에 사용할 수 있습니다. 나중에 파일에 저장하기 위한 인코딩과 관련하여.

오늘 우리는 FAIR(Fundamental AI Research)가 AI 기반 오디오 초압축 분야에서 이룬 진전에 대해 자세히 설명합니다. 연결 상태가 좋지 않고 멈추지 않거나 충돌하지 않는 지역에서 친구의 음성 메시지를 듣는다고 상상해 보십시오. 우리의 연구는 AI를 사용하여 이를 달성하는 방법을 보여줍니다.

코덱에서 두 가지 모델 제공 다운로드 준비:

  1. 24kHz 샘플 속도를 사용하고 모노 오디오만 지원하며 다양한 오디오 데이터(음성 인코딩에 적합)에 대해 학습되는 인과 모델입니다. 이 모델은 1,5, 3, 6, 12 및 24kbps의 비트 전송률로 전송하기 위해 오디오 데이터를 패킹하는 데 사용할 수 있습니다.
  2. 48kHz 샘플 속도를 사용하고 스테레오 사운드를 지원하며 음악에 대해서만 훈련된 비인과 모델입니다. 이 모델은 3, 6, 12 및 24kbps의 비트 전송률을 지원합니다.

각 모델에 대해 추가 언어 모델이 준비되어 있으며, 으로 상당한 증가를 허용합니다 품질 손실 없이 압축률(최대 40%)로 머신러닝 기술을 오디오 압축에 적용하는 이전 프로젝트와 달리, EnCodec은 음성 패키징뿐만 아니라 음악 압축에도 사용할 수 있습니다. 오디오 CD의 레벨에 해당하는 48kHz의 샘플링 주파수로.

새로운 코덱 개발자에 따르면 MP64 형식에 비해 3kbps의 비트 레이트로 전송하여 동일한 수준의 품질(예: MP3 사용 시)을 유지하면서 오디오 압축률을 약 64배 높일 수 있었습니다. EnCodec에서 동일한 품질로 전송하려면 6kbps의 대역폭이 필요합니다. XNUMXkbps이면 충분합니다.

그런 다음 이 데이터는 신경망을 사용하여 디코딩할 수 있습니다. 품질 손실 없이 10kbps에서 MP3에 비해 약 64배의 압축률을 달성했습니다. 이러한 기술은 음성에 대해 이전에 탐색되었지만 음악 배포의 표준인 48kHz 샘플링된 스테레오 오디오(즉, CD 품질)에 대해 작동하도록 만든 것은 우리가 처음입니다.

코덱의 아키텍처 신경망 기반으로 구축 "변혁적인" 아키텍처로 XNUMX개의 채권을 기반으로 합니다.: 인코더, 양자화기, 디코더 및 판별기:

  • El codificador 음성 데이터에서 매개변수를 추출하고 더 낮은 프레임 속도로 패킷화된 스트림으로 변환합니다.
  • El 수량자 (RVQ, Residual Vector Quantizer)는 인코더 출력 스트림을 패킷 세트로 변환하여 선택한 비트 전송률과 관련된 정보를 압축합니다. 양자화기의 출력은 네트워크를 통해 전송하거나 디스크에 저장하기에 적합한 데이터의 압축된 표현입니다.
  • El 디코더 압축된 데이터 표현을 디코딩하고 원래의 음파를 재구성합니다.
  • El 판별자 인간의 청각 지각 모델을 고려하여 생성된 샘플(샘플)의 품질을 향상시킵니다.

품질 수준 및 비트 전송률에 관계없이 인코딩 및 디코딩에 사용되는 모델은 상당히 적당한 리소스 요구 사항이 다릅니다(실시간 작업에 필요한 계산은 하나의 CPU 코어에서 수행됨).

마지막으로 관심 있는 분들을 위해 EnCodec의 참조 구현은 PyTorch 프레임워크를 사용하여 Python으로 작성되었으며 비상업적 용도로 CC BY-NC 4.0(Creative Commons Attribution-NonCommercial) 라이선스에 따라 사용이 허가되었음을 알아야 합니다. 뿐.

자세한 내용을 알고 싶으시면 다음에서 자세한 내용을 참조하십시오. 다음 링크.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자: AB Internet Networks 2008 SL
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.