EnCodec, नवीन मेटा ऑडिओ कोडेक

encodec

एन्कोडेक एक कोडेक आहे जो अंदाजे 10x च्या कॉम्प्रेशन रेटसह न्यूरल नेटवर्क वापरून डीकोड करतो

अलीकडे मेटा (पूर्वी फेसबुक) एनकोडेक नावाच्या त्याच्या नवीन ऑडिओ कोडेकचे अनावरण केले, que मशीन लर्निंग तंत्र वापरते गुणवत्ता न गमावता कॉम्प्रेशन रेशो वाढवण्यासाठी.

अत्याधुनिक आकारात कपात करण्यासाठी नवीन दृष्टीकोन रिअल टाइममध्ये ऑडिओ कॉम्प्रेस आणि डीकंप्रेस करू शकतो. कोडेक रिअल टाइममध्ये दोन्ही स्ट्रीमिंग ऑडिओसाठी वापरले जाऊ शकते फायलींमधील नंतरच्या स्टोरेजसाठी एन्कोडिंगसाठी.

आज, आम्ही आमच्या मूलभूत AI संशोधन (FAIR) ने AI-शक्तीच्या ऑडिओ हायपर-कंप्रेशनच्या क्षेत्रात केलेल्या प्रगतीचा तपशील देत आहोत. खराब कनेक्टिव्हिटी असलेल्या भागात मित्राचा ऑडिओ संदेश ऐकण्याची कल्पना करा आणि थांबत नाही किंवा क्रॅश होत नाही. हे साध्य करण्यासाठी आम्ही AI चा वापर कसा करू शकतो हे आमचे संशोधन दाखवते.

InCodec दोन मॉडेल ऑफर डाउनलोड करण्यासाठी तयार:

  1. एक कारक मॉडेल जे 24 kHz नमुना दर वापरते, केवळ मोनोफोनिक ऑडिओला समर्थन देते आणि विविध ऑडिओ डेटावर प्रशिक्षित आहे (स्पीच एन्कोडिंगसाठी योग्य). मॉडेलचा वापर 1,5, 3, 6, 12 आणि 24 kbps बिट दरांवर प्रसारणासाठी ऑडिओ डेटा पॅक करण्यासाठी केला जाऊ शकतो.
  2. 48kHz नमुना दर वापरणारे, स्टिरीओ साउंडला सपोर्ट करणारे आणि केवळ संगीतावर प्रशिक्षित केलेले नॉन-कॅझल मॉडेल. मॉडेल 3, 6, 12 आणि 24 kbps बिट दरांना समर्थन देते.

प्रत्येक मॉडेलसाठी, एक अतिरिक्त भाषा मॉडेल तयार केले गेले आहे, काय लक्षणीय वाढ करण्यास अनुमती देते गुणवत्तेचे नुकसान न करता कॉम्प्रेशन रेशोमध्ये (40% पर्यंत). ऑडिओ कॉम्प्रेशनवर मशीन लर्निंग तंत्र लागू करण्यासाठी मागील प्रकल्पांप्रमाणे, एनकोडेकचा वापर केवळ स्पीच पॅकेजिंगसाठीच नव्हे तर संगीत कॉम्प्रेशनसाठी देखील केला जाऊ शकतो ऑडिओ सीडीच्या पातळीशी संबंधित 48 kHz च्या सॅम्पलिंग फ्रिक्वेंसीसह.

नवीन कोडेकच्या विकसकांच्या मते, एमपी 64 स्वरूपाच्या तुलनेत 3 केबीपीएसच्या बिट दराने प्रसारित करून, त्यांनी समान पातळीची गुणवत्ता राखून ऑडिओ कॉम्प्रेशन प्रमाण सुमारे दहा पट वाढविण्यात व्यवस्थापित केले (उदाहरणार्थ, एमपी 3 वापरताना EnCodec मध्ये समान गुणवत्तेसह हस्तांतरित करण्यासाठी 64 kbps बँडविड्थ आवश्यक आहे, 6 kbps पुरेसे आहे).

हा डेटा नंतर न्यूरल नेटवर्क वापरून डीकोड केला जाऊ शकतो. आम्ही 10kbps वर MP3 च्या तुलनेत अंदाजे 64x कॉम्प्रेशन रेट मिळवला, गुणवत्तेची कोणतीही हानी न करता. भाषणासाठी ही तंत्रे यापूर्वी शोधली गेली असताना, आम्ही ते 48 kHz सॅम्पल स्टीरिओ ऑडिओ (म्हणजे CD गुणवत्ता) साठी कार्य करणारे पहिले आहोत, जे संगीत वितरणासाठी मानक आहे.

कोडेकचे आर्किटेक्चर हे न्यूरल नेटवर्कच्या आधारावर तयार केले गेले आहे "परिवर्तनशील" आर्किटेक्चरसह आणि चार बाँडवर आधारित आहे: एन्कोडर, क्वांटायझर, डिकोडर आणि भेदक:

  • El एन्कोडर व्हॉईस डेटामधून पॅरामीटर्स काढतो आणि कमी फ्रेम दराने पॅकेटाइज्ड स्ट्रीममध्ये रूपांतरित करतो.
  • El क्वांटिफायर (RVQ, Residual Vector Quantizer) एन्कोडर आउटपुट प्रवाहाला पॅकेट्सच्या सेटमध्ये रूपांतरित करते, निवडलेल्या बिट रेटशी संबंधित माहिती संकुचित करते. क्वांटायझरचे आउटपुट नेटवर्कवर प्रसारित करण्यासाठी किंवा डिस्कवर जतन करण्यासाठी योग्य असलेल्या डेटाचे संकुचित प्रतिनिधित्व आहे.
  • El डीकोडर संकुचित डेटाचे प्रतिनिधित्व डीकोड करते आणि मूळ ध्वनी लहरीची पुनर्रचना करते.
  • El भेदभाव करणारा मानवी श्रवणविषयक आकलनाचे मॉडेल लक्षात घेऊन व्युत्पन्न केलेल्या नमुन्यांची (नमुना) गुणवत्ता सुधारते.

गुणवत्ता पातळी आणि बिटरेटची पर्वा न करता, एन्कोडिंग आणि डीकोडिंगसाठी वापरलेली मॉडेल्स अगदी माफक संसाधन आवश्यकतांमध्ये भिन्न आहेत (रिअल-टाइम ऑपरेशनसाठी आवश्यक गणना एका CPU कोरवर केली जाते).

शेवटी, तुमच्यापैकी ज्यांना स्वारस्य आहे त्यांच्यासाठी, तुम्हाला हे माहित असले पाहिजे की EnCodec चे संदर्भ अंमलबजावणी पायथॉनमध्ये PyTorch फ्रेमवर्क वापरून लिहिलेली आहे आणि गैर-व्यावसायिक वापरासाठी CC BY-NC 4.0 (Creative Commons Attribution-Noncommercial) परवाना अंतर्गत परवानाकृत आहे. फक्त

तुम्हाला याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास, तुम्ही येथे तपशीलांचा सल्ला घेऊ शकता खालील दुवा.


टिप्पणी करणारे सर्वप्रथम व्हा

आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटासाठी जबाबदार: AB इंटरनेट नेटवर्क 2008 SL
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.