Silero, нейромережева система синтезу мовлення

Кілька днів тому було оголошено про вихід нової загальнодоступної версії системи синтезу мовлення нейронної мережі Силеро Text-to-Speech, головною метою проекту є створення сучасної якісної системи синтезу мовлення, яка не поступається комерційним рішенням корпорацій і доступна кожному без використання дорогого серверного обладнання.

Моделі поширюються за ліцензією GNU AGPL, але компанія, яка розробляє проект, не розкриває механізм навчання моделей. Для початку ви можете використовувати PyTorch та фреймворки, які підтримують формат ONNX.

В даний час Silero Є моделі англійською, іспанською, німецькою, російською, французькою, українською, татарською, узбецькою, башкирською та іншими мовами.

Синтез голосу в Silero Він заснований на використанні алгоритмів нейронної мережі. глибоко модифіковані сучасні та цифрові методи обробки сигналів.

Помічено, що головна проблема сучасних нейромережевих рішеньs для синтезу мовлення це часто доступні лише як частина платних хмарних рішень та загальнодоступна продукція має високі вимоги до обладнання, має нижчу якість або не є готовою та готовою до використання продукцією. Наприклад, для успішного запуску однієї з популярних нових архітектур наскрізного синтезу, VITS, у режимі синтезу (тобто, не для навчання моделі), потрібні відеокарти з більш ніж 16 гігабайтами VRAM.

Всупереч сучасній тенденції, Рішення Silero успішно працюють навіть на 1 потоку x86 процесора Intel з інструкціями AVX2. На 4 потоках процесора синтез дозволяє синтезувати 30-60 секунд на секунду в режимі синтезу 8 кГц, в режимі 24 кГц – 15-20 секунд, а в режимі 48 кГц – близько 10 секунд.

Основні новинки нової версії Silero

У цій новій версії, яка представлена, це підкреслюється розмір моделі зменшено в 2 рази до 50 мегабайт, плюс моделі стали в 10 разів швидше і, наприклад, в режимі 24 кГц вони можуть синтезувати до 20 секунд аудіо в секунду на 4 потоках процесора.

Окрім цього моделі вміють робити паузу, вони можуть прийняти повні параграфи текст як вхідний текст, підтримуються теги SSML, а всі параметри мовлення для мови упаковані в одну модель.

Також підкреслюється, що Синтез працює одночасно з трьома частотами дискретизації на вибір: 8, 24 і 48 кілогерц, «дитячі проблеми»: вирішено нестійкість і пропуск слів і додано прапорці для контролю автоматичної розстановки наголосів і розміщення букви «ё».

З іншого боку, також згадується, що існують деякі системні проблеми, притаманні синтезу Silero, а саме:

  • На відміну від більш традиційних рішень синтезу, таких як RHVoice, синтезу Silero відсутня інтеграція SAPI, клієнти, які легко встановити, а також інтеграція Windows та Android.
  • Швидкості, яка є безпрецедентною для такого рішення, може бути недостатньо для синтезу «на льоту» на високоякісних слабких процесорах.
  • Автоматичний вирішувач стресів не обробляє омографи і все одно робить помилки, але цю помилку буде виправлено в наступних випусках.
  • Поточна версія синтезу не працює на процесорах без інструкцій AVX2 (або вам потрібно спеціально змінити конфігурацію PyTorch), оскільки один із модулів всередині моделі є квантованим.
  • Поточна версія синтезу по суті має єдину залежність від PyTorch.
  • libtorch, доступний для мобільних платформ, набагато громіздкіший, ніж середовище виконання ONNX, але версія ONNX моделі поки не надається.

Нарешті згадується, що для наступної версії Він буде випущений найближчим часом з наступними змінами:

  • Швидкість синтезу збільшиться в 2-4 рази більше.
  • Буде оновлено шаблони синтезу для мов СНД: калмицької, татарської, узбецької та української.
  • Будуть додані моделі для європейських мов.
  • Будуть додані моделі для індійських мов.
  • Будуть додані моделі для англійської мови.

Якщо ви є цікаво дізнатися про це більше, Ви можете перевірити деталі У наступному посиланні.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: AB Internet Networks 2008 SL
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.