મોઝિલા કોમન વોઇસ 7.0 13,000 કલાકથી વધુ વોઇસ ડેટા સાથે આવે છે

તાજેતરમાં એનવીઆઇડીઆઇએ અને મોઝિલાએ "મોઝિલા કોમન વોઇસ 7.0" ના નવા સંસ્કરણની રજૂઆતની જાહેરાત કરી જે સામૂહિક મૂળના 13.000 કલાકથી વધુના વોઇસ ડેટા અને અન્ય 16 ભાષાઓના ઉમેરા અને તે રજૂ કરે છે છેલ્લા સુધારાની તુલનામાં, નું કદ સામગ્રી વોલ્યુમ સંગ્રહમાં બોલતા તેમાં લગભગ 50% વધુ વધારો થયો છે.

ઉપરાંત, સમર્થિત ભાષાઓની સંખ્યા 60 થી વધીને 76 થઈ છે, બેલારુસિયન, કઝાક, ઉઝબેક, બલ્ગેરિયન, આર્મેનિયન, અઝરબૈજાની અને બષ્કિર ભાષાઓ માટે પ્રથમ વખત વધારાના સપોર્ટ સહિત.

સામાન્ય અવાજથી અજાણ્યા લોકો માટે, તેઓએ જાણવું જોઈએ કે ઇઆ એક ઓપન ડેટા વ voiceઇસ ડેટા સેટ છે વિશ્વની સૌથી મોટી અને વ voiceઇસ ટેકનોલોજીને લોકશાહી બનાવવા માટે રચાયેલ છે. તેનો ઉપયોગ સંશોધકો, શિક્ષણવિદો અને વિકાસકર્તાઓ કરે છે વિશ્વભરમાંથી

કર્મચારીઓ વ ownઇસ ડેટા દાન કરવા માટે તેમના પોતાના સમુદાયોને એકઠા કરે છે MCV ના સાર્વજનિક ડેટાબેઝમાં, જેનો ઉપયોગ કોઈ પણ અવાજ-સક્ષમ તકનીકને તાલીમ આપવા માટે કરી શકે છે. NVIDIA સહયોગના ભાગરૂપે cમોઝિલા કોમન વોઇસ પર, આમાં પ્રશિક્ષિત મોડેલો અને અન્ય જાહેર ડેટા સેટ મફતમાં ઉપલબ્ધ છે NVIDIA NeMo નામના ઓપન સોર્સ ટૂલકિટ દ્વારા.

આ પ્રોજેક્ટ વ voiceઇસ નમૂનાઓનો ડેટાબેઝ એકત્રિત કરવા માટે સંયુક્ત કાર્યનું આયોજન કરવાનું લક્ષ્ય છે, તમામ પ્રકારના અવાજો અને બોલવાની રીતોને ધ્યાનમાં લેતા. માનવ ભાષણના લાક્ષણિક શબ્દસમૂહોના વિવિધ ઉચ્ચારણોના રેકોર્ડ સાથે સંચિત ડેટાબેઝનો ઉપયોગ મશીન શિક્ષણ પ્રણાલીઓમાં અને સંશોધન પ્રોજેક્ટ્સમાં પ્રતિબંધ વિના થઈ શકે છે.

વોસ્ક સતત વાણી ઓળખ પુસ્તકાલયના લેખક અનુસાર, સામાન્ય અવાજ સમૂહની ખામીઓ અવાજની સામગ્રીની એકતરફીતા છે (20 અને 30 ના દાયકામાં પુરુષોનું વર્ચસ્વ અને મહિલાઓ, બાળકોના અવાજ સાથે સામગ્રીનો અભાવ. અને વૃદ્ધો), શબ્દભંડોળની પરિવર્તનશીલતાનો અભાવ (સમાન શબ્દસમૂહોનું પુનરાવર્તન) અને એમપી 3 રેકોર્ડિંગ્સનું વિતરણ વિકૃતિ માટે સંવેદનશીલ છે.

સામાન્ય અવાજ 7.0 ના નવા સંસ્કરણ વિશે

આ નવા સંસ્કરણમાં 75 હજારથી વધુ લોકોએ ભાગ લીધો હતો અંગ્રેજીમાં સામગ્રીની તૈયારીમાં, 2637 કલાકની પુષ્ટિ કરેલ ભાષણ (ત્યાં 66 હજાર સહભાગીઓ અને 1686 કલાક હતા).

અમે શરૂઆતમાં ઉલ્લેખ કર્યો છે તેમ, આ નવું સંસ્કરણ 16 નવી ભાષાઓ રજૂ કરે છે કુલ 76 ભાષાઓ માટે કોમન વોઇસ ડેટાસેટમાં, જેમાંથી કુલ કલાકોની ટોચની પાંચ ભાષાઓ અંગ્રેજી (2.630 કલાક), કિન્યારવાન્ડા (2.260), જર્મન (1.040), કતલાન (920) અને એસ્પેરાન્ટો (840) છે.

જે ભાષાઓમાં ટકાવારીમાં સૌથી વધુ વધારો થયો છે તે થાઈ છે (લગભગ 20 ગણો વધારો, 12 કલાકથી 250 કલાક સુધી), લુગાન્ડા (9 ગણો વધારો, 8 કલાકથી 80 કલાક સુધી), એસ્પરાન્ટો (7 કલાકથી 100 કલાક સુધી 840 ગણાથી વધુ વૃદ્ધિ) અને તમિલ (8 કલાકથી વધુની વૃદ્ધિ, 24 કલાકથી 220 કલાક સુધી). જિજ્ાસાપૂર્વક, સંચિત ડેટાની દ્રષ્ટિએ રવાંડા બીજા ક્રમે છે, જેના માટે 2260 કલાક એકત્રિત કરવામાં આવ્યા હતા. તે પછી જર્મન (1040), કતલાન (920) અને એસ્પેરાન્ટો (840) આવે છે. ડેટાસેટમાં હવે 182,000 થી વધુ અનન્ય અવાજો છે, જે માત્ર છ મહિનામાં કરદાતા સમુદાયમાં 25% વૃદ્ધિ ધરાવે છે.

તે પણ ઉલ્લેખિત છે કે પ્રોજેક્ટમાં તેમની ભાગીદારીના ભાગરૂપે, NVIDIA એ મશીન લર્નિંગ સિસ્ટમ્સ માટે ઉપયોગ માટે તૈયાર પ્રશિક્ષિત મોડેલો તૈયાર કર્યા છે એકત્રિત ડેટા પર આધારિત (PyTorch સાથે સુસંગત). મોડેલોને મફત અને ખુલ્લા NVIDIA NeMo ટૂલના ભાગ રૂપે વહેંચવામાં આવે છે, જે, ઉદાહરણ તરીકે, MTS અને Sberbank ની સ્વચાલિત અવાજ સેવાઓમાં પહેલેથી જ ઉપયોગમાં લેવાય છે.

મોડેલો છે સ્વાભાવિક ભાષામાં વાણી ઓળખ, ભાષણ સંશ્લેષણ અને માહિતી પ્રક્રિયા પ્રણાલીઓને ધ્યાનમાં રાખીને અને તેઓ વ dialogueઇસ ડાયલોગ સિસ્ટમ્સ, ટ્રાન્સક્રિપ્શન પ્લેટફોર્મ અને ઓટોમેટેડ કોલ સેન્ટર્સની ડિઝાઇનમાં સંશોધકો માટે ઉપયોગી બની શકે છે. અગાઉ ઉપલબ્ધ પ્રોજેક્ટ્સથી વિપરીત, પ્રકાશિત મોડેલો અંગ્રેજી માન્યતા સુધી મર્યાદિત નથી અને વિવિધ ભાષાઓ, ઉચ્ચારો અને ભાષણના સ્વરૂપોને આવરી લે છે.

છેલ્લે જો તમને તેના વિશે વધુ જાણવામાં રસ છે, તમે માં વિગતો ચકાસી શકો છો નીચેની કડી


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: AB ઈન્ટરનેટ નેટવર્ક્સ 2008 SL
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.