Silero, нейросетевая система синтеза речи

Несколько дней назад анонсирован выход новой общедоступной версии нейросетевой системы синтеза речи Силеро Text-to-Speech, основной целью проекта является создание современной качественной системы синтеза речи, не уступающей коммерческим решениям корпораций и доступной каждому без использования дорогостоящего серверного оборудования.

Модели распространяются под лицензией GNU AGPL, однако компания, разрабатывающая проект, не раскрывает механизм обучения моделей. Для начала вы можете использовать PyTorch и фреймворки, поддерживающие формат ONNX.

В настоящее время Силеро В нем есть модели на английском, испанском, немецком, русском, французском, украинском, татарском, узбекском, башкирском и других языках.

Синтез голоса в Silero Он основан на использовании алгоритмов нейронных сетей. глубоко модифицированные современные и цифровые методы обработки сигналов.

Замечено, что главная проблема современных нейросетевых решенийs для синтеза речи заключается в том, что часто доступны только в составе платных облачных решений общедоступные продукты предъявляют высокие требования к оборудованию, имеют более низкое качество или не являются законченными и готовыми к использованию продуктами. Например, для успешного запуска одной из популярных новых архитектур сквозного синтеза, VITS, в режиме синтеза (т. е. не для обучения модели) требуются видеокарты с более чем 16 гигабайтами видеопамяти.

Вопреки современной тенденции, Решения Silero успешно работают даже на 1 потоке x86 процессора Intel с инструкциями AVX2. На 4 потоках процессора синтез позволяет синтезировать 30-60 секунд в секунду в режиме синтеза 8 кГц, в режиме 24 кГц — 15-20 секунд, а в режиме 48 кГц — около 10 секунд.

Основные новшества новой версии Silero

В представленной новой версии подчеркивается, что размер модели уменьшен в 2 раза до 50 мегабайт, плюс модели стали в 10 раз быстрее и например в режиме 24 кГц могут синтезировать до 20 секунд аудио в секунду на 4 потоках процессора.

Помимо этого модели умеют останавливатьсяОни могут принимать полные абзацы текст в качестве входных данных, поддерживаются теги SSML, а все параметры речи для языка упакованы в единую модель.

Также подчеркивается, что Синтез работает одновременно в трех частотах дискретизации на выбор: 8, 24 и 48 килогерц., «детские проблемы»: решена нестабильность и пропуск слов и добавлены флажки для контроля автоматической расстановки ударений и расстановки буквы «ё».

С другой стороны, также упоминается, что синтезу Silero присущи некоторые системные проблемы, а именно:

  • В отличие от более традиционных решений для синтеза, таких как RHVoice, в синтезе Silero отсутствует интеграция с SAPI, простые в установке клиенты и интеграция с Windows и Android.
  • Беспрецедентной для такого решения скорости может не хватить для оперативного синтеза на качественных слабеньких процессорах.
  • Автоматический решатель напряжения не обрабатывает омографы и по-прежнему допускает ошибки, но эта ошибка будет исправлена ​​в будущих версиях.
  • Текущая версия синтеза не работает на процессорах без инструкций AVX2 (или нужно специально менять конфигурацию PyTorch), потому что один из модулей внутри модели квантуется.
  • Текущая версия синтеза по сути имеет единственную зависимость от PyTorch.
  • libtorch, доступный для мобильных платформ, намного громоздче, чем среда выполнения ONNX, но ONNX-версия модели еще не предоставлена.

Наконец, упоминается, что для следующей версии Он будет выпущен в ближайшее время со следующими изменениями:

  • Скорость синтеза увеличится в 2-4 раза.
  • Будут обновлены шаблоны синтеза для языков СНГ: калмыцкого, татарского, узбекского и украинского.
  • Будут добавлены модели для европейских языков.
  • Будут добавлены модели для индийских языков.
  • Будут добавлены модели для английского языка.

Если вы интересно узнать об этом больше, вы можете проверить подробности По следующей ссылке.


Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.