EnCodec, codec audio Meta baru

encodec

Encodec adalah codec yang memecahkan kode menggunakan jaringan saraf dengan tingkat kompresi sekitar 10x

Baru-baru ini, meta (sebelumnya facebook) meluncurkan codec audio baru yang disebut EnCodec, bahwa menggunakan teknik pembelajaran mesin untuk meningkatkan rasio kompresi tanpa kehilangan kualitas.

Pendekatan baru ini dapat mengompresi dan mendekompresi audio secara real time untuk mencapai pengurangan ukuran yang canggih. codecnya dapat digunakan untuk kedua streaming audio secara real time seperti untuk pengkodean untuk penyimpanan nanti dalam file.

Hari ini, kami merinci kemajuan yang telah dibuat oleh Fundamental AI Research (FAIR) kami di bidang hiper-kompresi audio bertenaga AI. Bayangkan mendengarkan pesan audio teman di area dengan konektivitas yang buruk dan tidak berhenti atau mogok. Penelitian kami menunjukkan bagaimana kami dapat menggunakan AI untuk membantu kami mencapainya.

InCodec menawarkan dua model siap diunduh:

  1. Model kausal yang menggunakan laju sampel 24 kHz, hanya mendukung audio monofonik, dan dilatih pada berbagai data audio (cocok untuk penyandian suara). Model ini dapat digunakan untuk mengemas data audio untuk transmisi pada kecepatan bit 1,5, 3, 6, 12 dan 24 kbps.
  2. Model non-kausal yang menggunakan sample rate 48kHz, mendukung suara stereo, dan hanya dilatih pada musik. Model ini mendukung bit rate 3, 6, 12 dan 24 kbps.

Untuk setiap model, model bahasa tambahan telah disiapkan, apa memungkinkan peningkatan yang signifikan dalam rasio kompresi (hingga 40%) tanpa kehilangan kualitas. Tidak seperti proyek sebelumnya yang menerapkan teknik pembelajaran mesin pada kompresi audio, EnCodec dapat digunakan tidak hanya untuk pengemasan ucapan, tetapi juga untuk kompresi musik dengan frekuensi sampling 48 kHz, sesuai dengan level CD audio.

Menurut pengembang codec baru, dengan mentransmisikan pada bit rate 64 kbps dibandingkan dengan format MP3, mereka berhasil meningkatkan rasio kompresi audio sekitar sepuluh kali dengan tetap mempertahankan tingkat kualitas yang sama (misalnya, saat menggunakan MP3 itu membutuhkan bandwidth 64 kbps, untuk mentransfer dengan kualitas yang sama di EnCodec, 6 kbps sudah cukup).

Data ini kemudian dapat didekodekan menggunakan jaringan saraf. Kami mencapai tingkat kompresi 10x perkiraan dibandingkan dengan MP3 pada 64kbps, tanpa kehilangan kualitas. Sementara teknik ini telah dieksplorasi sebelumnya untuk pidato, kami adalah yang pertama membuatnya bekerja untuk audio stereo sampel 48 kHz (yaitu kualitas CD), yang merupakan standar untuk distribusi musik.

Arsitektur codec Itu dibangun atas dasar jaringan saraf dengan arsitektur "transformatif" dan didasarkan pada empat ikatan: encoder, quantizer, decoder dan diskriminator:

  • El pembuat enkode mengekstrak parameter dari data suara dan mengubahnya menjadi aliran paket pada kecepatan bingkai yang lebih rendah.
  • El pembilang (RVQ, Residual Vector Quantizer) mengubah aliran keluaran encoder menjadi kumpulan paket, mengompresi informasi relatif terhadap bit rate yang dipilih. Output dari quantizer adalah representasi terkompresi dari data yang cocok untuk transmisi melalui jaringan atau menyimpan ke disk.
  • El dekoder menerjemahkan representasi data terkompresi dan merekonstruksi gelombang suara asli.
  • El pembeda meningkatkan kualitas sampel yang dihasilkan (sampel) dengan mempertimbangkan model persepsi pendengaran manusia.

Terlepas dari tingkat kualitas dan bitrate, model yang digunakan untuk encoding dan decoding berbeda dalam persyaratan sumber daya yang cukup sederhana (perhitungan yang diperlukan untuk operasi real-time dilakukan pada satu inti CPU).

Terakhir, bagi Anda yang tertarik, Anda harus tahu bahwa implementasi referensi EnCodec ditulis dengan Python menggunakan kerangka kerja PyTorch dan dilisensikan di bawah lisensi CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) untuk penggunaan non-komersial hanya.

Jika Anda tertarik untuk mempelajarinya lebih lanjut, Anda dapat berkonsultasi detailnya di link berikut.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Bertanggung jawab atas data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.