EnCodec ตัวแปลงสัญญาณเสียง Meta ใหม่

เข้ารหัส

Encodec เป็นตัวแปลงสัญญาณที่ถอดรหัสโดยใช้โครงข่ายประสาทเทียมที่มีอัตราการบีบอัดประมาณ 10x

เมื่อเร็ว ๆ นี้ Meta (เดิมคือเฟสบุ๊ค) เปิดตัวตัวแปลงสัญญาณเสียงใหม่ที่เรียกว่า EnCodec นี้ ใช้เทคนิคแมชชีนเลิร์นนิง เพื่อเพิ่มอัตราการบีบอัดโดยไม่สูญเสียคุณภาพ

วิธีการใหม่นี้สามารถบีบอัดและขยายขนาดเสียงแบบเรียลไทม์เพื่อให้ได้ขนาดที่เล็กลงอย่างล้ำสมัย ตัวแปลงสัญญาณ ใช้ได้ทั้งสตรีมเสียงแบบเรียลไทม์ สำหรับการเข้ารหัสสำหรับการจัดเก็บในภายหลังในไฟล์

วันนี้ เรากำลังให้รายละเอียดเกี่ยวกับความคืบหน้าของการวิจัย Fundamental AI Research (FAIR) ของเราในด้านของการบีบอัดเสียงที่มากเกินไปของเสียงที่ขับเคลื่อนด้วย AI ลองนึกภาพฟังข้อความเสียงของเพื่อนในพื้นที่ที่มีการเชื่อมต่อไม่ดีและไม่หยุดหรือขัดข้อง การวิจัยของเราแสดงให้เห็นว่าเราสามารถใช้ AI เพื่อช่วยให้เราบรรลุเป้าหมายได้อย่างไร

InCodec ขอเสนอสองรุ่น พร้อมที่จะดาวน์โหลด:

  1. โมเดลเชิงสาเหตุที่ใช้อัตราการสุ่มตัวอย่าง 24 kHz รองรับเฉพาะเสียงแบบโมโนโฟนิก และได้รับการฝึกอบรมเกี่ยวกับข้อมูลเสียงที่หลากหลาย (เหมาะสำหรับการเข้ารหัสเสียงพูด) โมเดลนี้สามารถใช้ในการแพ็คข้อมูลเสียงสำหรับการส่งที่อัตราบิต 1,5, 3, 6, 12 และ 24 kbps
  2. รุ่นที่ไม่มีสาเหตุซึ่งใช้อัตราการสุ่มตัวอย่าง 48kHz รองรับเสียงสเตอริโอ และได้รับการฝึกสอนเกี่ยวกับดนตรีเท่านั้น โมเดลนี้รองรับอัตราบิต 3, 6, 12 และ 24 kbps

สำหรับแต่ละรุ่นมีการเตรียมแบบจำลองภาษาเพิ่มเติม Que แท้จริง ช่วยให้เพิ่มขึ้นอย่างมาก ในอัตราส่วนการอัด (สูงถึง 40%) โดยไม่สูญเสียคุณภาพ ต่างจากโปรเจ็กต์ก่อนหน้าที่จะใช้เทคนิคการเรียนรู้ของเครื่องกับการบีบอัดเสียง EnCodec สามารถใช้ได้ไม่เฉพาะกับแพ็คเกจคำพูดเท่านั้น แต่สำหรับการบีบอัดเพลงด้วย ด้วยความถี่สุ่ม 48 kHz ซึ่งสอดคล้องกับระดับของซีดีเพลง

ตามที่นักพัฒนาของตัวแปลงสัญญาณใหม่ โดยการส่งที่อัตราบิต 64 kbps เมื่อเทียบกับรูปแบบ MP3 พวกเขาสามารถเพิ่มอัตราส่วนการบีบอัดเสียงได้ประมาณสิบเท่าโดยที่ยังคงคุณภาพระดับเดิม (เช่น เมื่อใช้ MP3 ต้องใช้แบนด์วิดท์ 64 kbps เพื่อถ่ายโอนด้วยคุณภาพเดียวกันใน EnCodec 6 kbps ก็เพียงพอแล้ว)

ข้อมูลนี้สามารถถอดรหัสได้โดยใช้โครงข่ายประสาทเทียม เราได้รับอัตราการบีบอัดประมาณ 10 เท่าเมื่อเทียบกับ MP3 ที่ 64kbps โดยไม่สูญเสียคุณภาพ ในขณะที่เทคนิคเหล่านี้ได้รับการสำรวจมาก่อนสำหรับเสียงพูด เราเป็นคนแรกที่ทำให้มันใช้งานได้กับเสียงสเตอริโอแซมปลิง 48 kHz (เช่น คุณภาพซีดี) ซึ่งเป็นมาตรฐานสำหรับการกระจายเพลง

สถาปัตยกรรมของตัวแปลงสัญญาณ มันถูกสร้างขึ้นบนพื้นฐานของโครงข่ายประสาทเทียม ด้วยสถาปัตยกรรมที่ “เปลี่ยนแปลง” และมีพื้นฐานอยู่บนพันธะสี่ประการ: encoder, quantizer, decoder และ discriminator:

  • El เข้ารหัส แยกพารามิเตอร์ออกจากข้อมูลเสียงและแปลงเป็นสตรีมแบบแพ็คเก็ตที่อัตราเฟรมที่ต่ำกว่า
  • El ปริมาณ (RVQ, Residual Vector Quantizer) แปลงสตรีมเอาท์พุตของตัวเข้ารหัสเป็นชุดของแพ็กเก็ต โดยบีบอัดข้อมูลที่สัมพันธ์กับอัตราบิตที่เลือก ผลลัพธ์ของควอนไทเซอร์คือการแสดงข้อมูลที่ถูกบีบอัดซึ่งเหมาะสำหรับการส่งผ่านเครือข่ายหรือการบันทึกลงดิสก์
  • El ถอดรหัส ถอดรหัสการแสดงข้อมูลที่บีบอัดและสร้างคลื่นเสียงต้นฉบับขึ้นใหม่
  • El ผู้เลือกปฏิบัติ ปรับปรุงคุณภาพของตัวอย่างที่สร้างขึ้น (ตัวอย่าง) โดยคำนึงถึงแบบจำลองการรับรู้ทางหูของมนุษย์

โดยไม่คำนึงถึงระดับคุณภาพและบิตเรต โมเดลที่ใช้สำหรับการเข้ารหัสและถอดรหัสต่างกันในความต้องการทรัพยากรที่ค่อนข้างเจียมเนื้อเจียมตัว (การคำนวณที่จำเป็นสำหรับการทำงานแบบเรียลไทม์จะดำเนินการบนคอร์ CPU หนึ่งคอร์)

สุดท้ายนี้ สำหรับผู้ที่สนใจ คุณควรรู้ว่าการใช้งานอ้างอิงของ EnCodec เขียนด้วย Python โดยใช้เฟรมเวิร์ก PyTorch และได้รับอนุญาตภายใต้ใบอนุญาต CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ เท่านั้น.

สนใจเรียนรู้เพิ่มเติมสามารถเข้าไปดูรายละเอียดได้ที่ ลิงค์ต่อไปนี้


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. รับผิดชอบข้อมูล: AB Internet Networks 2008 SL
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา