मोझिला कॉमन व्हॉईस 7.0 13,000 तासांपेक्षा अधिक व्हॉइस डेटासह येतो

अलीकडे NVIDIA आणि Mozilla ने "Mozilla Common Voice 7.0" ची नवीन आवृत्ती जारी करण्याची घोषणा केली जे सामूहिक उत्पत्तीच्या 13.000 तासांपेक्षा अधिक व्हॉइस डेटाचे प्रतिनिधित्व करते आणि इतर 16 भाषांची जोड आणि ते शेवटच्या अपडेटच्या तुलनेत, चे आकार साहित्य खंड संग्रहात बोलत आहे त्यात जवळपास 50% अधिक वाढ झाली आहे.

तसेच, समर्थित भाषांची संख्या 60 वरून 76 झाली आहेबेलारूसीयन, कझाक, उझ्बेक, बल्गेरियन, आर्मेनियन, अझरबैजानी आणि बाश्कीर भाषांसाठी पहिल्यांदा अतिरिक्त समर्थन समाविष्ट आहे.

सामान्य आवाजाशी अपरिचित असणाऱ्यांसाठी त्यांना हे माहित असले पाहिजे की ईहा एक ओपन डेटा व्हॉइस डेटा सेट आहे जगातील सर्वात मोठे आणि आवाज तंत्रज्ञानाचे लोकशाहीकरण करण्यासाठी डिझाइन केलेले आहे. याचा उपयोग संशोधक, शिक्षणतज्ज्ञ आणि विकासक करतात जगभरातील

व्हॉइस डेटा दान करण्यासाठी कर्मचारी त्यांच्या स्वतःच्या समुदायांना एकत्र करतात MCV च्या सार्वजनिक डेटाबेसमध्ये, जे कोणीही आवाज-सक्षम तंत्रज्ञानाचे प्रशिक्षण देण्यासाठी वापरू शकते. NVIDIA सहकार्याचा भाग म्हणून cMozilla Common Voice वर, यामध्ये प्रशिक्षित मॉडेल आणि इतर सार्वजनिक डेटा सेट विनामूल्य उपलब्ध आहेत NVIDIA NeMo नावाच्या ओपन सोर्स टूलकिट द्वारे.

प्रकल्प व्हॉइस टेम्प्लेटचा डेटाबेस जमा करण्यासाठी संयुक्त कार्य आयोजित करण्याचे उद्दीष्ट आहे, सर्व प्रकारचे आवाज आणि बोलण्याचे मार्ग विचारात घेणे. मानवी भाषणाच्या वैशिष्ट्यपूर्ण वाक्यांशांच्या विविध उच्चारांच्या नोंदींसह जमा केलेला डेटाबेस मशीन लर्निंग सिस्टीम आणि संशोधन प्रकल्पांमध्ये निर्बंध न वापरता वापरला जाऊ शकतो.

व्हॉस्क सतत भाषण ओळख ग्रंथालयाच्या लेखकाच्या मते, कॉमन व्हॉईस सेटमधील कमतरता म्हणजे मुखर सामग्रीचा एकतर्फीपणा (20 आणि 30 च्या दशकात पुरुषांचे प्राबल्य आणि स्त्रिया, मुलांच्या आवाजासह साहित्याचा अभाव) आणि वृद्ध), शब्दसंग्रह बदलण्याची कमतरता (समान वाक्ये पुनरावृत्ती) आणि एमपी 3 रेकॉर्डिंगचे वितरण विकृत होण्याची शक्यता आहे.

कॉमन व्हॉईस 7.0 च्या नवीन आवृत्तीबद्दल

या नवीन आवृत्तीत 75 हजारांहून अधिक लोकांनी सहभाग घेतला इंग्रजीमध्ये साहित्य तयार करताना, 2637 तासांचे पुष्टीकरण भाषण (66 हजार सहभागी आणि 1686 तास) होते.

तसेच आम्ही सुरुवातीला नमूद केल्याप्रमाणे, ही नवीन आवृत्ती 16 नवीन भाषा सादर करते एकूण 76 भाषांसाठी कॉमन व्हॉइस डेटासेटमध्ये, ज्यामध्ये एकूण तासांनुसार पहिल्या पाच भाषा इंग्रजी (2.630 तास), किन्यारवांडा (2.260), जर्मन (1.040), कॅटलान (920) आणि एस्पेरांतो (840) आहेत.

ज्या भाषांमध्ये टक्केवारीत सर्वाधिक वाढ झाली आहे त्या थाई आहेत (जवळजवळ 20 पट वाढ, 12 तासांपासून 250 तासांपर्यंत), लुगांडा (9 वेळा वाढ, 8 तासांपासून 80 तासांपर्यंत), एस्परेंटो (7 तासांपासून 100 तासांपर्यंत 840 वेळापेक्षा जास्त वाढ) आणि तामिळ (8 तासांपासून 24 तासांपर्यंत 220x पेक्षा जास्त वाढ). उत्सुकतेने, संचयी डेटाच्या बाबतीत रवांडा दुसऱ्या क्रमांकावर आहे, ज्यासाठी 2260 तास गोळा केले गेले. त्यानंतर जर्मन (1040), कॅटलान (920) आणि एस्पेरांतो (840) यांचा क्रमांक लागतो. डेटासेटमध्ये आता 182,000 पेक्षा जास्त अनोखे आवाज आहेत, करदात्यांच्या समुदायात फक्त सहा महिन्यांत 25% वाढ झाली आहे.

प्रकल्पात त्यांच्या सहभागाचा एक भाग म्हणून, NVIDIA ने मशीन लर्निंग सिस्टीमसाठी वापरण्यास तयार प्रशिक्षित मॉडेल तयार केले आहेत गोळा केलेल्या डेटावर आधारित (PyTorch सह सुसंगत). मॉडेल विनामूल्य आणि खुल्या NVIDIA NeMo टूलचा भाग म्हणून वितरीत केले जातात, जे, उदाहरणार्थ, MTS आणि Sberbank च्या स्वयंचलित व्हॉइस सेवांमध्ये आधीच वापरले गेले आहे.

मॉडेल आहेत नैसर्गिक भाषेत भाषण ओळख, भाषण संश्लेषण आणि माहिती प्रक्रिया प्रणाली उद्देश आणि ते व्हॉइस डायलॉग सिस्टम, ट्रान्सक्रिप्शन प्लॅटफॉर्म आणि स्वयंचलित कॉल सेंटरच्या डिझाइनमध्ये संशोधकांना उपयुक्त ठरू शकतात. पूर्वी उपलब्ध प्रकल्पांप्रमाणे, प्रकाशित केलेले मॉडेल इंग्रजी मान्यतापुरते मर्यादित नाहीत आणि विविध भाषा, उच्चार आणि भाषणाचे प्रकार समाविष्ट करतात.

शेवटी आपल्याला त्याबद्दल अधिक जाणून घेण्यात स्वारस्य असल्यास, आपण मधील तपशील तपासू शकता खालील दुवा.


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटासाठी जबाबदार: AB इंटरनेट नेटवर्क 2008 SL
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.