EnCodec，Meta 的新音訊編解碼器

Encodec 是使用壓縮率約為 10 倍的神經網絡進行解碼的編解碼器

近日， Meta （前臉書） 推出了名為 EnCodec 的新音頻編解碼器， 這 使用機器學習技術 在不損失質量的情況下提高壓縮比。

新方法可以實時壓縮和解壓縮音頻，以實現最先進的尺寸縮減。編解碼器 可用於實時流式傳輸音頻 至於編碼以便以後存儲在文件中。

今天，我們將詳細介紹我們的基礎人工智能研究 (FAIR) 在人工智能驅動的音頻超壓縮領域取得的進展。想像一下，在連接性較差的區域聽朋友的音頻消息，並且沒有停止或崩潰。我們的研究表明我們可以如何使用人工智能來幫助我們實現這一目標。

在編解碼器中 提供兩種型號 準備下載：

使用 24 kHz 採樣率的因果模型，僅支持單聲道音頻，並針對各種音頻數據進行訓練（適用於語音編碼）。該模型可用於打包音頻數據，以便以 1,5、3、6、12 和 24 kbps 的比特率傳輸。
一個使用 48kHz 採樣率的非因果模型，支持立體聲，並且僅接受音樂訓練。該模型支持 3、6、12 和 24 kbps 的比特率。

對於每個模型，都準備了一個額外的語言模型， 勞闕 允許顯著增加 在不損失質量的情況下壓縮比（高達 40%）。與之前將機器學習技術應用於音頻壓縮的項目不同， EnCodec不僅可以用於語音打包，還可以用於音樂壓縮 採樣頻率為 48 kHz，對應於音頻 CD 的電平。

據新編解碼器的開發人員稱，與 MP64 格式相比，通過以 3 kbps 的比特率傳輸，他們設法將音頻壓縮率提高了大約 3 倍，同時保持相同的質量水平（例如，當使用 MP64它需要 6 kbps 的帶寬，在 EnCodec 中以相同的質量傳輸，XNUMX kbps 就足夠了）。

然後可以使用神經網絡對這些數據進行解碼。與 10kbps 的 MP3 相比，我們實現了大約 64 倍的壓縮率，並且沒有質量損失。雖然這些技術之前已經在語音方面進行了探索，但我們是第一個使其適用於 48 kHz 採樣立體聲音頻（即 CD 質量），這是音樂分發的標準。

編解碼器的架構 它建立在神經網絡的基礎上 具有“變革性”架構 並且基於四個債券：編碼器、量化器、解碼器和鑑別器：

無論質量水平和比特率如何，用於編碼和解碼的模型在資源需求上都不同（實時操作所需的計算在一個 CPU 內核上執行）。

最後，對於那些感興趣的人，您應該知道 EnCodec 的參考實現是使用 Python 使用 PyTorch 框架編寫的，並且在 CC BY-NC 4.0（Creative Commons Attribution-NonCommercial）許可下獲得許可，用於非商業用途只要。

如果您有興趣了解更多有關它的信息，可以在以下網址查閱詳細信息以下鏈接。

EnCodec，新的 Meta 音頻編解碼器