Silero ដែលជាប្រព័ន្ធសំយោគការនិយាយបណ្តាញសរសៃប្រសាទ

ពីរបីថ្ងៃមុន ការចេញផ្សាយកំណែសាធារណៈថ្មីមួយត្រូវបានប្រកាស នៃប្រព័ន្ធសំយោគការនិយាយនៃបណ្តាញសរសៃប្រសាទ ស៊ីលេរ៉ូ Text-to-Speech គោលដៅចម្បងនៃគម្រោងគឺបង្កើតប្រព័ន្ធសំយោគការនិយាយដែលមានគុណភាពខ្ពស់ទំនើបដែលមិនទាបជាងដំណោះស្រាយពាណិជ្ជកម្មនៃសាជីវកម្ម ហើយអាចរកបានសម្រាប់មនុស្សគ្រប់គ្នាដោយមិនប្រើឧបករណ៍ម៉ាស៊ីនមេថ្លៃ។

ម៉ូដែលទាំងនេះត្រូវបានចែកចាយក្រោមអាជ្ញាប័ណ្ណ GNU AGPL ប៉ុន្តែក្រុមហ៊ុនដែលបង្កើតគម្រោងនេះមិនបង្ហាញអំពីយន្តការសម្រាប់ម៉ូដែលបណ្តុះបណ្តាលនោះទេ។ ដើម្បីចាប់ផ្តើម អ្នកអាចប្រើ PyTorch និងក្របខ័ណ្ឌដែលគាំទ្រទ្រង់ទ្រាយ ONNX ។

បច្ចុប្បន្ន Silero វាមានម៉ូដែលជាភាសាអង់គ្លេស អេស្បាញ អាឡឺម៉ង់ រុស្ស៊ី បារាំង អ៊ុយក្រែន តាតា អ៊ូសបេក Bashkir ក្នុងចំណោមអ្នកដទៃទៀត។

ការសំយោគសំឡេងនៅក្នុង Silero វាត្រូវបានផ្អែកលើការប្រើប្រាស់ក្បួនដោះស្រាយបណ្តាញសរសៃប្រសាទ។ វិធីសាស្រ្តដំណើរការសញ្ញាឌីជីថល និងទំនើបដែលបានកែប្រែយ៉ាងស៊ីជម្រៅ។

គេសង្កេតឃើញថា បញ្ហាចម្បងនៃដំណោះស្រាយបណ្តាញសរសៃប្រសាទទំនើបs សម្រាប់ការសំយោគការនិយាយគឺជាញឹកញាប់ អាចប្រើបានតែជាផ្នែកនៃដំណោះស្រាយពពកដែលបានបង់ប្រាក់ប៉ុណ្ណោះ។ និងផលិតផលសាធារណៈមានតម្រូវការផ្នែករឹងខ្ពស់ មានគុណភាពទាប ឬផលិតផលមិនទាន់បានបញ្ចប់ និងរួចរាល់សម្រាប់ប្រើប្រាស់។ ជាឧទាហរណ៍ ដើម្បីដំណើរការដោយជោគជ័យនូវស្ថាបត្យកម្មសំយោគពីចុងដល់ចប់ថ្មីដ៏ពេញនិយមមួយ VITS នៅក្នុងរបៀបសំយោគ (ពោលគឺមិនមែនសម្រាប់ការបណ្តុះបណ្តាលគំរូទេ) កាតវីដេអូដែលមាន VRAM ច្រើនជាង 16 ជីហ្គាបៃគឺត្រូវបានទាមទារ។

ផ្ទុយពីនិន្នាការបច្ចុប្បន្ន។ ដំណោះស្រាយរបស់ Silero ដំណើរការដោយជោគជ័យសូម្បីតែនៅលើ 1 x86 thread នៃខួរក្បាល Intel ជាមួយនឹងការណែនាំ AVX2 ។ នៅលើ 4 processor threads ការសំយោគអនុញ្ញាតឱ្យអ្នកសំយោគ 30-60 វិនាទីក្នុងមួយវិនាទីក្នុងរបៀបសំយោគ 8 kHz ក្នុងរបៀប 24 kHz - 15-20 វិនាទី និងក្នុងរបៀប 48 kHz - ប្រហែល 10 វិនាទី។

ភាពថ្មីថ្មោងសំខាន់ៗនៃកំណែថ្មីរបស់ Silero

នៅក្នុងកំណែថ្មីនេះដែលត្រូវបានបង្ហាញវាត្រូវបានគូសបញ្ជាក់ ទំហំនៃគំរូត្រូវបានកាត់បន្ថយ 2 ដងទៅ 50 មេកាបៃបូកនឹងម៉ូដែលបានលឿនជាងមុន 10 ដង ហើយឧទាហរណ៍ក្នុងរបៀប 24 kHz ពួកគេអាចសំយោគសំឡេងបានរហូតដល់ 20 វិនាទីក្នុងមួយវិនាទីនៅលើ 4 processor threads ។

ក្រៅពីវា ម៉ូដែលដឹងពីរបៀបផ្អាក, ពួកគេ​អាច ទទួលយកកថាខណ្ឌពេញ អត្ថបទជាការបញ្ចូល ស្លាក SSML ត្រូវបានគាំទ្រ ហើយជម្រើសនៃការនិយាយទាំងអស់សម្រាប់ភាសាមួយត្រូវបានខ្ចប់ទៅជាគំរូតែមួយ។

វាត្រូវបានគូសបញ្ជាក់ផងដែរ ការសំយោគដំណើរការក្នុងពេលដំណាលគ្នាក្នុងអត្រាគំរូបីដើម្បីជ្រើសរើសពី: 8, 24 និង 48 គីឡូហឺត“បញ្ហារបស់កុមារ”៖ អស្ថិរភាព និងការលុបពាក្យត្រូវបានដោះស្រាយ ហើយទង់ត្រូវបានបន្ថែម ដើម្បីគ្រប់គ្រងការដាក់សំឡេងដោយស្វ័យប្រវត្តិ និងការដាក់អក្សរ “ё”។

ម្យ៉ាងវិញទៀត វាក៏ត្រូវបានលើកឡើងផងដែរថា មានបញ្ហាប្រព័ន្ធមួយចំនួនដែលជាប់ទាក់ទងនឹងការសំយោគ Silero ហើយពួកគេគឺ៖

  • មិនដូចដំណោះស្រាយសំយោគបែបប្រពៃណីដូចជា RHVoice ទេ ការសំយោគរបស់ Silero ខ្វះការរួមបញ្ចូល SAPI អតិថិជនងាយស្រួលដំឡើង និងការរួមបញ្ចូល Windows និង Android ។
  • ល្បឿន ខណៈពេលដែលមិនធ្លាប់មានពីមុនមកសម្រាប់ដំណោះស្រាយបែបនេះ ប្រហែលជាមិនគ្រប់គ្រាន់សម្រាប់ការសំយោគនៅលើយន្តហោះនៅលើប្រព័ន្ធដំណើរការខ្សោយដែលមានគុណភាពខ្ពស់។
  • ឧបករណ៍ដោះស្រាយបញ្ហាស្ត្រេសដោយស្វ័យប្រវត្តិមិនដោះស្រាយ homographs ហើយនៅតែបង្កើតកំហុស ប៉ុន្តែកំហុសនេះនឹងត្រូវបានជួសជុលនៅក្នុងការចេញផ្សាយនាពេលខាងមុខ។
  • កំណែបច្ចុប្បន្ននៃការសំយោគមិនដំណើរការលើ processors ដោយគ្មានការណែនាំ AVX2 (ឬអ្នកត្រូវផ្លាស់ប្តូរជាពិសេសការកំណត់រចនាសម្ព័ន្ធ PyTorch) ពីព្រោះម៉ូឌុលមួយក្នុងចំណោមម៉ូឌុលនៅក្នុងគំរូត្រូវបានគណនាបរិមាណ។
  • កំណែបច្ចុប្បន្ននៃការសំយោគមានភាពចាំបាច់តែមួយគត់នៅលើ PyTorch ។
  • libtorch ដែលអាចរកបានសម្រាប់វេទិកាចល័តគឺមានភាពស្ទាក់ស្ទើរជាងពេលដំណើរការ ONNX ប៉ុន្តែកំណែ ONNX នៃម៉ូដែលមិនត្រូវបានផ្តល់ឱ្យនៅឡើយទេ។

ទីបំផុតវាត្រូវបានគេនិយាយថា សម្រាប់កំណែបន្ទាប់ វានឹងត្រូវបានចេញផ្សាយនាពេលដ៏ខ្លីខាងមុខជាមួយនឹងការផ្លាស់ប្តូរដូចខាងក្រោម:

  • អត្រាសំយោគនឹងកើនឡើងពី 2 ទៅ 4 ដងច្រើនជាងនេះ។
  • គំរូសំយោគសម្រាប់ភាសា CIS៖ Kalmyk, Tatar, Uzbek និង Ukrainian នឹងត្រូវបានអាប់ដេត។
  • គំរូសម្រាប់ភាសាអ៊ឺរ៉ុបនឹងត្រូវបានបន្ថែម។
  • គំរូសម្រាប់ភាសាឥណ្ឌានឹងត្រូវបានបន្ថែម។
  • គំរូសម្រាប់ភាសាអង់គ្លេសនឹងត្រូវបានបន្ថែម។

ប្រសិនបើអ្នក ចាប់អារម្មណ៍ចង់ដឹងបន្ថែមអំពីវា។អ្នកអាចពិនិត្យព័ត៌មានលម្អិត នៅក្នុងតំណខាងក្រោម។


ខ្លឹមសារនៃអត្ថបទប្រកាន់ខ្ជាប់នូវគោលការណ៍របស់យើង ក្រមសីលធម៌វិចារណកថា។ ដើម្បីរាយការណ៍ការចុចកំហុស នៅទីនេះ.

ធ្វើជាយោបល់ដំបូង

ទុកឱ្យយោបល់របស់អ្នក

អាសយដ្ឋានអ៊ីមែលរបស់អ្នកនឹងមិនត្រូវបានបោះពុម្ភ។ អ្នកគួរតែអនុវត្តតាម *

*

*

  1. ទទួលខុសត្រូវចំពោះទិន្នន័យ៖ AB Internet Networks 2008 SL
  2. គោលបំណងនៃទិន្នន័យ៖ គ្រប់គ្រង SPAM ការគ្រប់គ្រងមតិយោបល់។
  3. ភាពស្របច្បាប់៖ ការយល់ព្រមរបស់អ្នក
  4. ការប្រាស្រ័យទាក់ទងទិន្នន័យ៖ ទិន្នន័យនឹងមិនត្រូវបានទាក់ទងទៅភាគីទីបីឡើយលើកលែងតែកាតព្វកិច្ចផ្នែកច្បាប់។
  5. ការផ្ទុកទិន្នន័យ៖ មូលដ្ឋានទិន្នន័យដែលរៀបចំដោយបណ្តាញ Occentus (EU)
  6. សិទ្ធិ៖ នៅពេលណាដែលអ្នកអាចដាក់កម្រិតទាញយកមកវិញនិងលុបព័ត៌មានរបស់អ្នក។