एनकोडेक, नया मेटा ऑडियो कोडेक

एनकोडेक

एनकोडेक एक कोडेक है जो लगभग 10x . की संपीड़न दर के साथ एक तंत्रिका नेटवर्क का उपयोग करके डीकोड करता है

हाल ही में, मेटा (पूर्व में फेसबुक) एनकोडेक नामक अपने नए ऑडियो कोडेक का अनावरण किया, कि मशीन सीखने की तकनीक का उपयोग करता है गुणवत्ता खोए बिना संपीड़न अनुपात बढ़ाने के लिए।

नया दृष्टिकोण अत्याधुनिक आकार में कमी को प्राप्त करने के लिए वास्तविक समय में ऑडियो को संपीड़ित और विघटित कर सकता है। कोडेक वास्तविक समय में ऑडियो स्ट्रीमिंग दोनों के लिए इस्तेमाल किया जा सकता है फाइलों में बाद में भंडारण के लिए एन्कोडिंग के लिए।

आज, हम एआई-संचालित ऑडियो हाइपर-कम्प्रेशन के क्षेत्र में हमारे फंडामेंटल एआई रिसर्च (एफएआईआर) की प्रगति का विवरण दे रहे हैं। खराब कनेक्टिविटी वाले क्षेत्र में किसी मित्र के ऑडियो संदेश को सुनने की कल्पना करें और रुकें या दुर्घटनाग्रस्त न हों। हमारे शोध से पता चलता है कि इसे हासिल करने में हमारी सहायता के लिए हम एआई का उपयोग कैसे कर सकते हैं।

इनकोडेक दो मॉडल पेश करें डाउनलोड करने के लिए तैयार:

  1. एक कारण मॉडल जो 24 kHz नमूना दर का उपयोग करता है, केवल मोनोफोनिक ऑडियो का समर्थन करता है, और विभिन्न प्रकार के ऑडियो डेटा (भाषण एन्कोडिंग के लिए उपयुक्त) पर प्रशिक्षित होता है। मॉडल का उपयोग 1,5, 3, 6, 12 और 24 केबीपीएस की बिट दरों पर प्रसारण के लिए ऑडियो डेटा पैक करने के लिए किया जा सकता है।
  2. एक गैर-कारण मॉडल जो 48kHz नमूना दर का उपयोग करता है, स्टीरियो ध्वनि का समर्थन करता है, और केवल संगीत पर प्रशिक्षित किया गया था। मॉडल 3, 6, 12 और 24 केबीपीएस की बिट दर का समर्थन करता है।

प्रत्येक मॉडल के लिए, एक अतिरिक्त भाषा मॉडल तैयार किया गया है, जैसा उल्लेखनीय वृद्धि की अनुमति देता है गुणवत्ता के नुकसान के बिना संपीड़न अनुपात (40% तक) में। ऑडियो संपीड़न के लिए मशीन सीखने की तकनीकों को लागू करने के लिए पिछली परियोजनाओं के विपरीत, EnCodec का उपयोग न केवल भाषण पैकेजिंग के लिए, बल्कि संगीत संपीड़न के लिए भी किया जा सकता है ऑडियो सीडी के स्तर के अनुरूप, 48 kHz की नमूना आवृत्ति के साथ।

नए कोडेक के डेवलपर्स के अनुसार, एमपी64 प्रारूप की तुलना में 3 केबीपीएस की बिट दर पर संचारण करके, वे गुणवत्ता के समान स्तर को बनाए रखते हुए ऑडियो संपीड़न अनुपात को लगभग दस गुना बढ़ाने में कामयाब रहे (उदाहरण के लिए, एमपी3 का उपयोग करते समय) इसके लिए 64 kbps की बैंडविड्थ की आवश्यकता होती है, EnCodec में समान गुणवत्ता के साथ स्थानांतरित करने के लिए, 6 kbps पर्याप्त है)।

इस डेटा को फिर एक तंत्रिका नेटवर्क का उपयोग करके डिकोड किया जा सकता है। हमने 10kbps पर MP3 की तुलना में लगभग 64x संपीड़न दर हासिल की, जिसमें गुणवत्ता का कोई नुकसान नहीं हुआ। जबकि इन तकनीकों को भाषण के लिए पहले खोजा गया है, हम इसे 48 kHz नमूना स्टीरियो ऑडियो (यानी सीडी गुणवत्ता) के लिए काम करने वाले पहले व्यक्ति हैं, जो संगीत वितरण के लिए मानक है।

कोडेक की वास्तुकला यह एक तंत्रिका नेटवर्क के आधार पर बनाया गया है "परिवर्तनकारी" वास्तुकला के साथ और चार बंधों पर आधारित है: एनकोडर, क्वांटाइज़र, डिकोडर और डिस्क्रिमिनेटर:

  • El एनकोडर ध्वनि डेटा से पैरामीटर निकालता है और इसे कम फ्रेम दर पर एक पैकेटयुक्त स्ट्रीम में परिवर्तित करता है।
  • El परिमाणक (आरवीक्यू, अवशिष्ट वेक्टर क्वांटिज़र) एन्कोडर आउटपुट स्ट्रीम को पैकेट के सेट में परिवर्तित करता है, चयनित बिट दर के सापेक्ष जानकारी को संपीड़ित करता है। क्वांटिज़र का आउटपुट नेटवर्क पर ट्रांसमिशन या डिस्क पर सहेजने के लिए उपयुक्त डेटा का एक संकुचित प्रतिनिधित्व है।
  • El विकोडक संपीड़ित डेटा प्रतिनिधित्व को डीकोड करता है और मूल ध्वनि तरंग का पुनर्निर्माण करता है।
  • El discriminator मानव श्रवण धारणा के मॉडल को ध्यान में रखते हुए उत्पन्न नमूनों (नमूना) की गुणवत्ता में सुधार करता है।

गुणवत्ता स्तर और बिटरेट के बावजूद, एन्कोडिंग और डिकोडिंग के लिए उपयोग किए जाने वाले मॉडल काफी मामूली संसाधन आवश्यकताओं में भिन्न होते हैं (वास्तविक समय के संचालन के लिए आवश्यक गणना एक सीपीयू कोर पर की जाती है)।

अंत में, आप में से जो रुचि रखते हैं, आपको पता होना चाहिए कि EnCodec का संदर्भ कार्यान्वयन PyTorch ढांचे का उपयोग करके पायथन में लिखा गया है और गैर-व्यावसायिक उपयोग के लिए CC BY-NC 4.0 (क्रिएटिव कॉमन्स एट्रिब्यूशन-नॉन-कमर्शियल) लाइसेंस के तहत लाइसेंस प्राप्त है। केवल।

यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं, तो आप विवरण पर परामर्श कर सकते हैं निम्नलिखित लिंक।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: एबी इंटरनेट नेटवर्क 2008 SL
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।