Mozilla Common Voice 7.0 13,000 घंटे से अधिक के ध्वनि डेटा के साथ आता है

हाल ही में NVIDIA और Mozilla ने "Mozilla Common Voice 7.0" के नए संस्करण को जारी करने की घोषणा की जो सामूहिक उत्पत्ति के १३,००० घंटे से अधिक ध्वनि डेटा और अन्य १६ भाषाओं को जोड़ने का प्रतिनिधित्व करता है और वह पिछले अद्यतन की तुलना में, का आकार सामग्री मात्रा संग्रह में बोल रहा हूँ यह लगभग 50% अधिक बढ़ गया है।

इसके अलावा, समर्थित भाषाओं की संख्या 60 से बढ़कर 76 . हो गई है, पहली बार बेलारूसी, कज़ाख, उज़्बेक, बल्गेरियाई, अर्मेनियाई, अज़रबैजानी और बश्किर भाषाओं के लिए अतिरिक्त समर्थन सहित।

आम आवाज से अपरिचित लोगों के लिए, उन्हें पता होना चाहिए कि ईयह एक खुला डेटा वॉयस डेटा सेट है दुनिया में सबसे बड़ा और आवाज प्रौद्योगिकी का लोकतंत्रीकरण करने के लिए डिज़ाइन किया गया है। इसका उपयोग शोधकर्ताओं, शिक्षाविदों और डेवलपर्स द्वारा किया जाता है दुनिया भर में.

वॉयस डेटा दान करने के लिए कर्मचारी अपने स्वयं के समुदायों को संगठित करते हैं एमसीवी के सार्वजनिक डेटाबेस में, जिसका उपयोग कोई भी आवाज-सक्षम प्रौद्योगिकी को प्रशिक्षित करने के लिए कर सकता है। NVIDIA सहयोग के भाग के रूप में cमोज़िला कॉमन वॉयस पर, इसमें प्रशिक्षित मॉडल और अन्य सार्वजनिक डेटा सेट मुफ्त में उपलब्ध हैं NVIDIA NeMo नामक एक ओपन सोर्स टूलकिट के माध्यम से।

अल proyecto वॉयस टेम्प्लेट के डेटाबेस को संचित करने के लिए संयुक्त कार्य को व्यवस्थित करने का लक्ष्य है, सभी प्रकार की आवाज़ों और बोलने के तरीकों को ध्यान में रखते हुए। मानव भाषण के विशिष्ट वाक्यांशों के विभिन्न उच्चारणों के रिकॉर्ड के साथ संचित डेटाबेस का उपयोग मशीन लर्निंग सिस्टम और अनुसंधान परियोजनाओं में प्रतिबंध के बिना किया जा सकता है।

वोस्क कंटीन्यूअस स्पीच रिकग्निशन लाइब्रेरी के लेखक के अनुसार, कॉमन वॉयस सेट की कमियां मुखर सामग्री की एकतरफाता (उनके 20 और 30 के दशक में पुरुषों की प्रधानता और महिलाओं, बच्चों की आवाज के साथ सामग्री की कमी) हैं। और बुजुर्ग), शब्दावली परिवर्तनशीलता की कमी (समान वाक्यांशों की पुनरावृत्ति) और एमपी3 रिकॉर्डिंग के वितरण में विकृति की संभावना है।

Common Voice 7.0 के नए संस्करण के बारे में

इस नए संस्करण में 75 हजार से अधिक लोगों ने भाग लिया अंग्रेजी में सामग्री की तैयारी में, 2637 घंटे की पुष्टि भाषण (66 हजार प्रतिभागी और 1686 घंटे) तय करते थे।

साथ ही जैसा कि हमने शुरुआत में उल्लेख किया है, यह नया संस्करण 16 नई भाषाओं का परिचय देता है कुल ७६ भाषाओं के लिए कॉमन वॉयस डेटासेट में, जिनमें से कुल घंटे के हिसाब से शीर्ष पांच भाषाएं अंग्रेजी (२,६३० घंटे), किन्यारवांडा (२,२६०), जर्मन (१०४०), कैटलन (९२०) और एस्पेरांतो (८४०) हैं।

जिन भाषाओं में प्रतिशत में सबसे अधिक वृद्धि हुई है वे हैं थाई (लगभग 20 गुना वृद्धि, 12 घंटे से 250 घंटे तक), लुगंडा (9 गुना वृद्धि, 8 घंटे से 80 घंटे तक), एस्पेरांतो (7 गुना से अधिक की वृद्धि, 100 घंटे से 840 घंटे तक) और तमिल (8x से अधिक की वृद्धि, 24 घंटे से 220 घंटे तक)। उत्सुकता से, संचयी डेटा के मामले में रवांडा दूसरे स्थान पर है, जिसके लिए 2260 घंटे एकत्र किए गए थे। उनके बाद जर्मन (1040), कैटलन (920) और एस्पेरांतो (840) का स्थान है। डेटासेट में अब १८२,००० से अधिक अद्वितीय आवाजें हैं, जो केवल छह महीनों में करदाता समुदाय में २५% की वृद्धि है।

यह भी उल्लेख किया गया है कि परियोजना में उनकी भागीदारी के हिस्से के रूप में, NVIDIA ने मशीन लर्निंग सिस्टम के लिए रेडी-टू-यूज़ प्रशिक्षित मॉडल तैयार किए हैं एकत्रित डेटा के आधार पर (PyTorch के साथ संगत)। मॉडल एक स्वतंत्र और खुले NVIDIA NeMo टूल के हिस्से के रूप में वितरित किए जाते हैं, जो उदाहरण के लिए, पहले से ही MTS और Sberbank की स्वचालित वॉयस सेवाओं में उपयोग किया जाता है।

मॉडल हैं प्राकृतिक भाषा में वाक् पहचान, वाक् संश्लेषण और सूचना प्रसंस्करण प्रणालियों के उद्देश्य से और वे वॉयस डायलॉग सिस्टम, ट्रांसक्रिप्शन प्लेटफॉर्म और स्वचालित कॉल सेंटर के डिजाइन में शोधकर्ताओं के लिए उपयोगी हो सकते हैं। पहले उपलब्ध परियोजनाओं के विपरीत, प्रकाशित मॉडल अंग्रेजी मान्यता तक सीमित नहीं हैं और विभिन्न भाषाओं, उच्चारण और भाषण के रूपों को कवर करते हैं।

अंत में यदि आप इसके बारे में अधिक जानने में रुचि रखते हैं, आप में विवरण देख सकते हैं निम्नलिखित लिंक।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: एबी इंटरनेट नेटवर्क 2008 SL
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।