EnCodec, codec audio Meta baharu

encodec

Encodec ialah codec yang menyahkod menggunakan rangkaian saraf dengan kadar mampatan lebih kurang 10x

Baru-baru ini meta (dahulu Facebook) memperkenalkan codec audio baharunya yang dipanggil EnCodec, bahawa menggunakan teknik pembelajaran mesin untuk meningkatkan nisbah mampatan tanpa kehilangan kualiti.

Pendekatan baharu boleh memampatkan dan menyahmampat audio dalam masa nyata untuk mencapai pengurangan saiz terkini. codec itu boleh digunakan untuk kedua-dua penstriman audio dalam masa nyata seperti untuk pengekodan untuk penyimpanan kemudian dalam fail.

Hari ini, kami memperincikan kemajuan Penyelidikan AI Asas (FAIR) kami dalam bidang pemampatan hiper audio berkuasa AI. Bayangkan mendengar mesej audio rakan di kawasan yang mempunyai sambungan yang lemah dan tidak berhenti atau ranap. Penyelidikan kami menunjukkan cara kami boleh menggunakan AI untuk membantu kami mencapai matlamat ini.

InCodec menawarkan dua model sedia untuk dimuat turun:

  1. Model kausal yang menggunakan kadar sampel 24 kHz, hanya menyokong audio monofonik dan dilatih mengenai pelbagai data audio (sesuai untuk pengekodan pertuturan). Model ini boleh digunakan untuk membungkus data audio untuk penghantaran pada kadar bit 1,5, 3, 6, 12 dan 24 kbps.
  2. Model bukan sebab yang menggunakan kadar sampel 48kHz, menyokong bunyi stereo dan dilatih pada muzik sahaja. Model ini menyokong kadar bit 3, 6, 12 dan 24 kbps.

Bagi setiap model, model bahasa tambahan telah disediakan, sebagai membolehkan peningkatan yang ketara dalam nisbah mampatan (sehingga 40%) tanpa kehilangan kualiti. Tidak seperti projek sebelumnya untuk menggunakan teknik pembelajaran mesin pada pemampatan audio, EnCodec boleh digunakan bukan sahaja untuk pembungkusan pertuturan, tetapi juga untuk pemampatan muzik dengan frekuensi pensampelan 48 kHz, sepadan dengan tahap CD audio.

Menurut pembangun codec baharu, dengan menghantar pada kadar bit 64 kbps berbanding format MP3, mereka berjaya meningkatkan nisbah mampatan audio kira-kira sepuluh kali ganda sambil mengekalkan tahap kualiti yang sama (contohnya, apabila menggunakan MP3 ia memerlukan lebar jalur 64 kbps, untuk memindahkan dengan kualiti yang sama dalam EnCodec, 6 kbps sudah memadai).

Data ini kemudiannya boleh dinyahkod menggunakan rangkaian saraf. Kami mencapai anggaran 10x kadar mampatan berbanding MP3 pada 64kbps, tanpa kehilangan kualiti. Walaupun teknik ini telah diterokai sebelum ini untuk pertuturan, kami adalah yang pertama menjadikannya berfungsi untuk audio stereo sampel 48 kHz (iaitu kualiti CD), yang merupakan standard untuk pengedaran muzik.

Seni bina codec Ia dibina berdasarkan rangkaian saraf dengan seni bina "transformatif". dan berdasarkan empat ikatan: pengekod, pengkuantiti, penyahkod dan diskriminator:

  • El pengekod mengekstrak parameter daripada data suara dan menukarnya menjadi strim berpaket pada kadar bingkai yang lebih rendah.
  • El pengkuantiti (RVQ, Residual Vector Quantizer) menukar aliran keluaran pengekod kepada set paket, memampatkan maklumat secara relatif kepada kadar bit yang dipilih. Output pengkuantiti ialah perwakilan termampat data yang sesuai untuk penghantaran melalui rangkaian atau disimpan ke cakera.
  • El penyahkod menyahkod perwakilan data termampat dan membina semula gelombang bunyi asal.
  • El diskriminasi meningkatkan kualiti sampel yang dihasilkan (sampel) dengan mengambil kira model persepsi pendengaran manusia.

Tanpa mengira tahap kualiti dan kadar bit, model yang digunakan untuk pengekodan dan penyahkodan berbeza dalam keperluan sumber yang agak sederhana (pengiraan yang diperlukan untuk operasi masa nyata dilakukan pada satu teras CPU).

Akhir sekali, bagi anda yang berminat, anda harus tahu bahawa pelaksanaan rujukan EnCodec ditulis dalam Python menggunakan rangka kerja PyTorch dan dilesenkan di bawah lesen CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) untuk kegunaan bukan komersial sahaja.

Jika anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh merujuk butiran di pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab untuk data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.