EnCodec,新的 Meta 音頻編解碼器

編碼器

Encodec 是使用壓縮率約為 10 倍的神經網絡進行解碼的編解碼器

近日, Meta (前臉書) 推出了名為 EnCodec 的新音頻編解碼器,使用機器學習技術 在不損失質量的情況下提高壓縮比。

新方法可以實時壓縮和解壓縮音頻,以實現最先進的尺寸縮減。 編解碼器 可用於實時流式傳輸音頻 至於編碼以便以後存儲在文件中。

今天,我們將詳細介紹我們的基礎人工智能研究 (FAIR) 在人工智能驅動的音頻超壓縮領域取得的進展。 想像一下,在連接性較差的區域聽朋友的音頻消息,並且沒有停止或崩潰。 我們的研究表明我們可以如何使用人工智能來幫助我們實現這一目標。

在編解碼器中 提供兩種型號 準備下載:

  1. 使用 24 kHz 採樣率的因果模型,僅支持單聲道音頻,並針對各種音頻數據進行訓練(適用於語音編碼)。 該模型可用於打包音頻數據,以便以 1,5、3、6、12 和 24 kbps 的比特率傳輸。
  2. 一個使用 48kHz 採樣率的非因果模型,支持立體聲,並且僅接受音樂訓練。 該模型支持 3、6、12 和 24 kbps 的比特率。

對於每個模型,都準備了一個額外的語言模型, 勞闕 允許顯著增加 在不損失質量的情況下壓縮比(高達 40%)。 與之前將機器學習技術應用於音頻壓縮的項目不同, EnCodec不僅可以用於語音打包,還可以用於音樂壓縮 採樣頻率為 48 kHz,對應於音頻 CD 的電平。

據新編解碼器的開發人員稱,與 MP64 格式相比,通過以 3 kbps 的比特率傳輸,他們設法將音頻壓縮率提高了大約 3 倍,同時保持相同的質量水平(例如,當使用 MP64它需要 6 kbps 的帶寬,在 EnCodec 中以相同的質量傳輸,XNUMX kbps 就足夠了)。

然後可以使用神經網絡對這些數據進行解碼。 與 10kbps 的 MP3 相比,我們實現了大約 64 倍的壓縮率,並且沒有質量損失。 雖然這些技術之前已經在語音方面進行了探索,但我們是第一個使其適用於 48 kHz 採樣立體聲音頻(即 CD 質量),這是音樂分發的標準。

編解碼器的架構 它建立在神經網絡的基礎上 具有“變革性”架構 並且基於四個債券:編碼器、量化器、解碼器和鑑別器:

  • El 編碼器 從語音數據中提取參數並以較低的幀速率將其轉換為分組流。
  • El 量詞 (RVQ,殘差矢量量化器)將編碼器輸出流轉換為數據包集,壓縮與所選比特率相關的信息。 量化器的輸出是適合通過網絡傳輸或保存到磁盤的數據的壓縮表示。
  • El 解碼器 解碼壓縮數據表示並重建原始聲波。
  • El 鑑別器 考慮到人類聽覺感知模型,提高了生成樣本(sample)的質量。

無論質量水平和比特率如何,用於編碼和解碼的模型在資源需求上都不同(實時操作所需的計算在一個 CPU 內核上執行)。

最後,對於那些感興趣的人,您應該知道 EnCodec 的參考實現是使用 Python 使用 PyTorch 框架編寫的,並且在 CC BY-NC 4.0(Creative Commons Attribution-NonCommercial)許可下獲得許可,用於非商業用途只要。

如果您有興趣了解更多有關它的信息,可以在以下網址查閱詳細信息 以下鏈接。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責資料:AB Internet Networks 2008 SL
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。