Несколько дней назад анонсирован выход новой общедоступной версии нейросетевой системы синтеза речи Силеро Text-to-Speech, основной целью проекта является создание современной качественной системы синтеза речи, не уступающей коммерческим решениям корпораций и доступной каждому без использования дорогостоящего серверного оборудования.
Модели распространяются под лицензией GNU AGPL, однако компания, разрабатывающая проект, не раскрывает механизм обучения моделей. Для начала вы можете использовать PyTorch и фреймворки, поддерживающие формат ONNX.
В настоящее время Силеро В нем есть модели на английском, испанском, немецком, русском, французском, украинском, татарском, узбекском, башкирском и других языках.
Синтез голоса в Silero Он основан на использовании алгоритмов нейронных сетей. глубоко модифицированные современные и цифровые методы обработки сигналов.
Замечено, что главная проблема современных нейросетевых решенийs для синтеза речи заключается в том, что часто доступны только в составе платных облачных решений общедоступные продукты предъявляют высокие требования к оборудованию, имеют более низкое качество или не являются законченными и готовыми к использованию продуктами. Например, для успешного запуска одной из популярных новых архитектур сквозного синтеза, VITS, в режиме синтеза (т. е. не для обучения модели) требуются видеокарты с более чем 16 гигабайтами видеопамяти.
Вопреки современной тенденции, Решения Silero успешно работают даже на 1 потоке x86 процессора Intel с инструкциями AVX2. На 4 потоках процессора синтез позволяет синтезировать 30-60 секунд в секунду в режиме синтеза 8 кГц, в режиме 24 кГц — 15-20 секунд, а в режиме 48 кГц — около 10 секунд.
Основные новшества новой версии Silero
В представленной новой версии подчеркивается, что размер модели уменьшен в 2 раза до 50 мегабайт, плюс модели стали в 10 раз быстрее и например в режиме 24 кГц могут синтезировать до 20 секунд аудио в секунду на 4 потоках процессора.
Помимо этого модели умеют останавливатьсяОни могут принимать полные абзацы текст в качестве входных данных, поддерживаются теги SSML, а все параметры речи для языка упакованы в единую модель.
Также подчеркивается, что Синтез работает одновременно в трех частотах дискретизации на выбор: 8, 24 и 48 килогерц., «детские проблемы»: решена нестабильность и пропуск слов и добавлены флажки для контроля автоматической расстановки ударений и расстановки буквы «ё».
С другой стороны, также упоминается, что синтезу Silero присущи некоторые системные проблемы, а именно:
- В отличие от более традиционных решений для синтеза, таких как RHVoice, в синтезе Silero отсутствует интеграция с SAPI, простые в установке клиенты и интеграция с Windows и Android.
- Беспрецедентной для такого решения скорости может не хватить для оперативного синтеза на качественных слабеньких процессорах.
- Автоматический решатель напряжения не обрабатывает омографы и по-прежнему допускает ошибки, но эта ошибка будет исправлена в будущих версиях.
- Текущая версия синтеза не работает на процессорах без инструкций AVX2 (или нужно специально менять конфигурацию PyTorch), потому что один из модулей внутри модели квантуется.
- Текущая версия синтеза по сути имеет единственную зависимость от PyTorch.
- libtorch, доступный для мобильных платформ, намного громоздче, чем среда выполнения ONNX, но ONNX-версия модели еще не предоставлена.
Наконец, упоминается, что для следующей версии Он будет выпущен в ближайшее время со следующими изменениями:
- Скорость синтеза увеличится в 2-4 раза.
- Будут обновлены шаблоны синтеза для языков СНГ: калмыцкого, татарского, узбекского и украинского.
- Будут добавлены модели для европейских языков.
- Будут добавлены модели для индийских языков.
- Будут добавлены модели для английского языка.
Если вы интересно узнать об этом больше, вы можете проверить подробности По следующей ссылке.