સિલેરો, ન્યુરલ નેટવર્ક સ્પીચ સિન્થેસિસ સિસ્ટમ

થોડા દિવસો પહેલા નવા સાર્વજનિક સંસ્કરણના પ્રકાશનની જાહેરાત કરવામાં આવી હતી ન્યુરલ નેટવર્ક સ્પીચ સિન્થેસિસ સિસ્ટમ સિલેરો ટેક્સ્ટ-ટુ-સ્પીચ, પ્રોજેક્ટનો મુખ્ય ધ્યેય આધુનિક ઉચ્ચ-ગુણવત્તાવાળી ભાષણ સંશ્લેષણ સિસ્ટમ બનાવવાનું છે જે કોર્પોરેશનોના વ્યવસાયિક ઉકેલોથી હલકી ગુણવત્તાવાળા નથી અને ખર્ચાળ સર્વર સાધનોનો ઉપયોગ કર્યા વિના દરેક માટે ઉપલબ્ધ છે.

મોડેલો GNU AGPL લાયસન્સ હેઠળ વિતરિત કરવામાં આવે છે, પરંતુ જે કંપની પ્રોજેક્ટ વિકસાવે છે તે પ્રશિક્ષણ મોડલ્સ માટેની પદ્ધતિ જાહેર કરતી નથી. પ્રારંભ કરવા માટે, તમે PyTorch અને ફ્રેમવર્કનો ઉપયોગ કરી શકો છો જે ONNX ફોર્મેટને સપોર્ટ કરે છે.

હાલમાં, સિલેરો તેમાં અંગ્રેજી, સ્પેનિશ, જર્મન, રશિયન, ફ્રેન્ચ, યુક્રેનિયન, તતાર, ઉઝબેક, બશ્કીર વગેરેમાં મોડલ છે.

સિલેરોમાં અવાજ સંશ્લેષણ તે ન્યુરલ નેટવર્ક અલ્ગોરિધમ્સના ઉપયોગ પર આધારિત છે. આધુનિક અને ડિજિટલ સિગ્નલ પ્રોસેસિંગ પદ્ધતિઓમાં ઊંડો ફેરફાર.

તે જોવા મળે છે આધુનિક ન્યુરલ નેટવર્ક સોલ્યુશન્સની મુખ્ય સમસ્યાs ભાષણ સંશ્લેષણ માટે તે ઘણી વાર છે પેઇડ ક્લાઉડ સોલ્યુશન્સના ભાગરૂપે જ ઉપલબ્ધ છે અને સાર્વજનિક ઉત્પાદનો ઉચ્ચ હાર્ડવેર આવશ્યકતાઓ ધરાવે છે, નીચી ગુણવત્તાની હોય છે, અથવા તૈયાર અને ઉપયોગમાં લેવા માટે તૈયાર ઉત્પાદનો નથી. ઉદાહરણ તરીકે, એક લોકપ્રિય નવા એન્ડ-ટુ-એન્ડ સિન્થેસિસ આર્કિટેક્ચર, VITS, સફળતાપૂર્વક ચલાવવા માટે, સિન્થેસિસ મોડમાં (એટલે ​​​​કે, મોડલ તાલીમ માટે નહીં), 16 ગીગાબાઇટ્સથી વધુ VRAM ધરાવતા વિડિયો કાર્ડ્સ જરૂરી છે.

વર્તમાન વલણથી વિપરીત, સિલેરોના સોલ્યુશન્સ 1 x86 થ્રેડ પર પણ સફળતાપૂર્વક ચાલે છે AVX2 સૂચનાઓ સાથે ઇન્ટેલ પ્રોસેસરનું. 4 પ્રોસેસર થ્રેડો પર, સંશ્લેષણ તમને 30 kHz સંશ્લેષણ મોડમાં 60-8 સેકન્ડ પ્રતિ સેકન્ડ, 24 kHz મોડમાં - 15-20 સેકન્ડ, અને 48 kHz મોડમાં - લગભગ 10 સેકન્ડમાં સંશ્લેષણ કરવાની મંજૂરી આપે છે.

સિલેરોના નવા સંસ્કરણની મુખ્ય નવીનતાઓ

પ્રસ્તુત કરાયેલા આ નવા સંસ્કરણમાં, તે પ્રકાશિત કરવામાં આવ્યું છે મોડેલનું કદ 2 ગણું ઘટાડીને 50 મેગાબાઇટ્સ કરવામાં આવ્યું છે, ઉપરાંત મોડલ્સ 10 ગણા ઝડપી બન્યા છે અને ઉદાહરણ તરીકે, 24 kHz મોડમાં, તેઓ 20 પ્રોસેસર થ્રેડો પર પ્રતિ સેકન્ડ 4 સેકન્ડ સુધી ઑડિયોનું સંશ્લેષણ કરી શકે છે.

તે ઉપરાંત મોડેલો જાણે છે કે કેવી રીતે વિરામ લેવો, તેઓ કરી શકે છે સંપૂર્ણ ફકરા સ્વીકારો ઇનપુટ તરીકે ટેક્સ્ટ, SSML ટૅગ્સ સપોર્ટેડ છે, અને ભાષા માટેના તમામ ભાષણ વિકલ્પો એક મોડેલમાં પેક કરવામાં આવે છે.

તે પણ પ્રકાશિત થયેલ છે સિન્થેસિસ એકસાથે પસંદ કરવા માટે ત્રણ નમૂના દરોમાં કાર્ય કરે છે: 8, 24 અને 48 કિલોહર્ટ્ઝ, "બાળકોની સમસ્યાઓ": અસ્થિરતા અને શબ્દોની અવગણના ઉકેલવામાં આવી છે અને ઉચ્ચારોના સ્વચાલિત પ્લેસમેન્ટ અને "ё" અક્ષરના પ્લેસમેન્ટને નિયંત્રિત કરવા માટે ફ્લેગ ઉમેરવામાં આવ્યા છે.

બીજી બાજુ, તે પણ ઉલ્લેખિત છે કે સિલેરો સંશ્લેષણમાં અંતર્ગત કેટલીક પ્રણાલીગત સમસ્યાઓ છે અને તે છે:

  • RHVoice જેવા વધુ પરંપરાગત સંશ્લેષણ ઉકેલોથી વિપરીત, સિલેરોના સંશ્લેષણમાં SAPI એકીકરણ, સરળ-થી-ઇન્સ્ટોલ ક્લાયંટ અને Windows અને Android એકીકરણનો અભાવ છે.
  • ઝડપ, આવા ઉકેલ માટે અભૂતપૂર્વ હોવા છતાં, ઉચ્ચ-ગુણવત્તાવાળા નબળા પ્રોસેસરો પર ઑન-ધ-ફ્લાય સંશ્લેષણ માટે પૂરતી ન હોઈ શકે.
  • ઓટોમેટિક સ્ટ્રેસ સોલ્વર હોમોગ્રાફ્સને હેન્ડલ કરતું નથી અને હજુ પણ ભૂલો કરે છે, પરંતુ આ બગ ભવિષ્યના પ્રકાશનોમાં ઠીક કરવામાં આવશે.
  • સંશ્લેષણનું વર્તમાન સંસ્કરણ AVX2 સૂચનાઓ વિના પ્રોસેસર્સ પર કામ કરતું નથી (અથવા તમારે ખાસ કરીને PyTorch રૂપરેખાંકન બદલવાની જરૂર છે), કારણ કે મોડલની અંદરના મોડ્યુલમાંથી એક ક્વોન્ટાઇઝ્ડ છે.
  • સંશ્લેષણના વર્તમાન સંસ્કરણમાં આવશ્યકપણે PyTorch પર એકમાત્ર નિર્ભરતા છે.
  • મોબાઇલ પ્લેટફોર્મ માટે ઉપલબ્ધ libtorch એ ONNX રનટાઇમ કરતાં વધુ બોજારૂપ છે, પરંતુ મોડલનું ONNX વર્ઝન હજી પૂરું પાડવામાં આવ્યું નથી.

છેલ્લે તે ઉલ્લેખ છે આગામી સંસ્કરણ માટે તે નીચેના ફેરફારો સાથે નજીકના ભવિષ્યમાં રિલીઝ કરવામાં આવશે:

  • સંશ્લેષણ દર 2 થી 4 ગણો વધુ વધશે.
  • CIS ભાષાઓ માટે સંશ્લેષણ નમૂનાઓ: કાલ્મીક, તતાર, ઉઝબેક અને યુક્રેનિયન અપડેટ કરવામાં આવશે.
  • યુરોપિયન ભાષાઓ માટેના મોડલ ઉમેરવામાં આવશે.
  • ભારતીય ભાષાઓ માટે મોડલ ઉમેરવામાં આવશે.
  • અંગ્રેજી માટેના મોડલ ઉમેરવામાં આવશે.

જો તમે છો તેના વિશે વધુ જાણવામાં રસ છે, તમે વિગતો ચકાસી શકો છો નીચેની કડીમાં


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: AB ઈન્ટરનેટ નેટવર્ક્સ 2008 SL
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.