เมื่อเร็ว ๆ นี้ Meta (เดิมคือเฟสบุ๊ค) เปิดตัวตัวแปลงสัญญาณเสียงใหม่ที่เรียกว่า EnCodec นี้ ใช้เทคนิคแมชชีนเลิร์นนิง เพื่อเพิ่มอัตราการบีบอัดโดยไม่สูญเสียคุณภาพ
วิธีการใหม่นี้สามารถบีบอัดและขยายขนาดเสียงแบบเรียลไทม์เพื่อให้ได้ขนาดที่เล็กลงอย่างล้ำสมัย ตัวแปลงสัญญาณ ใช้ได้ทั้งสตรีมเสียงแบบเรียลไทม์ สำหรับการเข้ารหัสสำหรับการจัดเก็บในภายหลังในไฟล์
วันนี้ เรากำลังให้รายละเอียดเกี่ยวกับความคืบหน้าของการวิจัย Fundamental AI Research (FAIR) ของเราในด้านของการบีบอัดเสียงที่มากเกินไปของเสียงที่ขับเคลื่อนด้วย AI ลองนึกภาพฟังข้อความเสียงของเพื่อนในพื้นที่ที่มีการเชื่อมต่อไม่ดีและไม่หยุดหรือขัดข้อง การวิจัยของเราแสดงให้เห็นว่าเราสามารถใช้ AI เพื่อช่วยให้เราบรรลุเป้าหมายได้อย่างไร
InCodec ขอเสนอสองรุ่น พร้อมที่จะดาวน์โหลด:
- โมเดลเชิงสาเหตุที่ใช้อัตราการสุ่มตัวอย่าง 24 kHz รองรับเฉพาะเสียงแบบโมโนโฟนิก และได้รับการฝึกอบรมเกี่ยวกับข้อมูลเสียงที่หลากหลาย (เหมาะสำหรับการเข้ารหัสเสียงพูด) โมเดลนี้สามารถใช้ในการแพ็คข้อมูลเสียงสำหรับการส่งที่อัตราบิต 1,5, 3, 6, 12 และ 24 kbps
- รุ่นที่ไม่มีสาเหตุซึ่งใช้อัตราการสุ่มตัวอย่าง 48kHz รองรับเสียงสเตอริโอ และได้รับการฝึกสอนเกี่ยวกับดนตรีเท่านั้น โมเดลนี้รองรับอัตราบิต 3, 6, 12 และ 24 kbps
สำหรับแต่ละรุ่นมีการเตรียมแบบจำลองภาษาเพิ่มเติม Que แท้จริง ช่วยให้เพิ่มขึ้นอย่างมาก ในอัตราส่วนการอัด (สูงถึง 40%) โดยไม่สูญเสียคุณภาพ ต่างจากโปรเจ็กต์ก่อนหน้าที่จะใช้เทคนิคการเรียนรู้ของเครื่องกับการบีบอัดเสียง EnCodec สามารถใช้ได้ไม่เฉพาะกับแพ็คเกจคำพูดเท่านั้น แต่สำหรับการบีบอัดเพลงด้วย ด้วยความถี่สุ่ม 48 kHz ซึ่งสอดคล้องกับระดับของซีดีเพลง
ตามที่นักพัฒนาของตัวแปลงสัญญาณใหม่ โดยการส่งที่อัตราบิต 64 kbps เมื่อเทียบกับรูปแบบ MP3 พวกเขาสามารถเพิ่มอัตราส่วนการบีบอัดเสียงได้ประมาณสิบเท่าโดยที่ยังคงคุณภาพระดับเดิม (เช่น เมื่อใช้ MP3 ต้องใช้แบนด์วิดท์ 64 kbps เพื่อถ่ายโอนด้วยคุณภาพเดียวกันใน EnCodec 6 kbps ก็เพียงพอแล้ว)
ข้อมูลนี้สามารถถอดรหัสได้โดยใช้โครงข่ายประสาทเทียม เราได้รับอัตราการบีบอัดประมาณ 10 เท่าเมื่อเทียบกับ MP3 ที่ 64kbps โดยไม่สูญเสียคุณภาพ ในขณะที่เทคนิคเหล่านี้ได้รับการสำรวจมาก่อนสำหรับเสียงพูด เราเป็นคนแรกที่ทำให้มันใช้งานได้กับเสียงสเตอริโอแซมปลิง 48 kHz (เช่น คุณภาพซีดี) ซึ่งเป็นมาตรฐานสำหรับการกระจายเพลง
สถาปัตยกรรมของตัวแปลงสัญญาณ มันถูกสร้างขึ้นบนพื้นฐานของโครงข่ายประสาทเทียม ด้วยสถาปัตยกรรมที่ “เปลี่ยนแปลง” และมีพื้นฐานอยู่บนพันธะสี่ประการ: encoder, quantizer, decoder และ discriminator:
- El เข้ารหัส แยกพารามิเตอร์ออกจากข้อมูลเสียงและแปลงเป็นสตรีมแบบแพ็คเก็ตที่อัตราเฟรมที่ต่ำกว่า
- El ปริมาณ (RVQ, Residual Vector Quantizer) แปลงสตรีมเอาท์พุตของตัวเข้ารหัสเป็นชุดของแพ็กเก็ต โดยบีบอัดข้อมูลที่สัมพันธ์กับอัตราบิตที่เลือก ผลลัพธ์ของควอนไทเซอร์คือการแสดงข้อมูลที่ถูกบีบอัดซึ่งเหมาะสำหรับการส่งผ่านเครือข่ายหรือการบันทึกลงดิสก์
- El ถอดรหัส ถอดรหัสการแสดงข้อมูลที่บีบอัดและสร้างคลื่นเสียงต้นฉบับขึ้นใหม่
- El ผู้เลือกปฏิบัติ ปรับปรุงคุณภาพของตัวอย่างที่สร้างขึ้น (ตัวอย่าง) โดยคำนึงถึงแบบจำลองการรับรู้ทางหูของมนุษย์
โดยไม่คำนึงถึงระดับคุณภาพและบิตเรต โมเดลที่ใช้สำหรับการเข้ารหัสและถอดรหัสต่างกันในความต้องการทรัพยากรที่ค่อนข้างเจียมเนื้อเจียมตัว (การคำนวณที่จำเป็นสำหรับการทำงานแบบเรียลไทม์จะดำเนินการบนคอร์ CPU หนึ่งคอร์)
สุดท้ายนี้ สำหรับผู้ที่สนใจ คุณควรรู้ว่าการใช้งานอ้างอิงของ EnCodec เขียนด้วย Python โดยใช้เฟรมเวิร์ก PyTorch และได้รับอนุญาตภายใต้ใบอนุญาต CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ เท่านั้น.
สนใจเรียนรู้เพิ่มเติมสามารถเข้าไปดูรายละเอียดได้ที่ ลิงค์ต่อไปนี้