几天前 宣布发布新的公开版本 神经网络语音合成系统 西莱罗 Text-to-Speech,该项目的主要目标是创建一个不逊于企业商业解决方案的现代高质量语音合成系统,并且无需使用昂贵的服务器设备即可供所有人使用。
这些模型是在 GNU AGPL 许可下分发的,但开发该项目的公司没有透露训练模型的机制。 首先,您可以使用 PyTorch 和支持 ONNX 格式的框架。
目前,西莱罗 它有英语、西班牙语、德语、俄语、法语、乌克兰语、鞑靼语、乌兹别克语、巴什基尔语等语言的模型。
Silero 中的语音合成 它基于使用神经网络算法。 深刻修改了现代和数字信号处理方法。
据观察, 现代神经网络解决的主要问题s 用于语音合成通常是 仅作为付费云解决方案的一部分提供 公共产品对硬件要求高,质量低,或者不是成品和即用型产品。 例如,要在合成模式下(即不用于模型训练)成功运行一种流行的新端到端合成架构 VITS,需要具有超过 16 GB VRAM 的视频卡。
与现在的趋势相反, Silero 的解决方案即使在 1 x86 线程上也能成功运行 带有 AVX2 指令的 Intel 处理器。 在 4 个处理器线程上,合成允许您在 30 kHz 合成模式下每秒合成 60-8 秒,在 24 kHz 模式下 - 15-20 秒,在 48 kHz 模式下 - 大约 10 秒。
新版 Silero 的主要创新点
在展示的这个新版本中,强调了 模型大小减少 2 倍至 50 兆字节,此外,模型速度提高了 10 倍,例如,在 24 kHz 模式下,它们可以在 20 个处理器线程上每秒合成高达 4 秒的音频。
除了它 模型知道如何暂停可以 接受完整的段落 文本作为输入,支持 SSML 标签,并且一种语言的所有语音选项都打包到一个模型中。
还强调了 合成以三种采样率同时工作,可供选择:8、24 和 48 kHz,“儿童问题”:解决了单词的不稳定和遗漏,并添加了标志来控制重音的自动放置和字母“ё”的放置。
另一方面,也提到了 Silero 合成固有的一些系统性问题,它们是:
- 与 RHVoice 等更传统的合成解决方案不同,Silero 的合成缺乏 SAPI 集成、易于安装的客户端以及 Windows 和 Android 集成。
- 这种速度虽然对于这种解决方案来说是前所未有的,但可能不足以在高质量弱处理器上进行动态合成。
- 自动压力求解器不处理同形异义词,仍然会出错,但这个错误将在未来的版本中修复。
- 当前版本的综合不适用于没有 AVX2 指令的处理器(或者您需要专门更改 PyTorch 配置),因为模型内部的模块之一是量化的。
- 当前版本的综合基本上只依赖于 PyTorch。
- 可用于移动平台的 libtorch 比 ONNX 运行时要麻烦得多,但目前还没有提供模型的 ONNX 版本。
最后提到 对于下一个版本 它将在不久的将来发布,并进行以下更改:
- 合成速率将增加 2 到 4 倍以上。
- 独联体语言的合成模板:卡尔梅克语、鞑靼语、乌兹别克语和乌克兰语将被更新。
- 将添加欧洲语言的模型。
- 将添加印度语言模型。
- 将添加英语模型。
如果你是 有兴趣了解更多,您可以查看详细信息 在下面的链接中。