数日前 新しい公開バージョンのリリースが発表されました ニューラルネットワーク音声合成システムの シレロ Text-to-Speechのプロジェクトの主な目標は、企業の商用ソリューションに劣らず、高価なサーバー機器を使用せずに誰でも利用できる最新の高品質音声合成システムを作成することです。
モデルはGNUAGPLライセンスの下で配布されますが、プロジェクトを開発する会社はモデルをトレーニングするためのメカニズムを開示していません。 開始するには、ONNX形式をサポートするPyTorchとフレームワークを使用できます。
現在、シレロ 英語、スペイン語、ドイツ語、ロシア語、フランス語、ウクライナ語、タタール語、ウズベック語、バシキール語などのモデルがあります。
Sileroでの音声合成 これは、ニューラルネットワークアルゴリズムの使用に基づいています。 大幅に変更された最新のデジタル信号処理方法。
観察された 現代のニューラルネットワークソリューションの主な問題音声合成の場合は、 有料クラウドソリューションの一部としてのみ利用可能 公開製品は、ハードウェア要件が高いか、品質が低いか、完成していない状態ですぐに使用できる製品です。 たとえば、人気のある新しいエンドツーエンド合成アーキテクチャの16つであるVITSを合成モードで(つまり、モデルトレーニング用ではなく)正常に実行するには、XNUMXギガバイトを超えるVRAMを搭載したビデオカードが必要です。
現在の傾向に反して、 Sileroのソリューションは、1x86スレッドでも正常に実行されます AVX2命令を備えたIntelプロセッサの4つのプロセッサスレッドでは、合成により、30 kHz合成モードで毎秒60〜8秒、24 kHzモードで15〜20秒、48kHzモードで約10秒合成できます。
シレロの新バージョンの主なノベルティ
提示されるこの新しいバージョンでは、次のことが強調されています。 モデルのサイズは2倍に縮小されて50メガバイトになりますに加えて、モデルは10倍高速になり、たとえば24 kHzモードでは、20つのプロセッサスレッドで4秒あたり最大XNUMX秒のオーディオを合成できます。
それに加えて モデルは一時停止する方法を知っています、彼らはできます 全段落を受け入れる 入力としてのテキスト、SSMLタグがサポートされており、言語のすべての音声オプションがXNUMXつのモデルにパッケージ化されています。
また、 合成は、8、24、48キロヘルツから選択するXNUMXつのサンプルレートで同時に機能します、「子供の問題」:単語の不安定性と省略が解決され、アクセントの自動配置と文字「ё」の配置を制御するフラグが追加されました。
一方、シレロ合成に固有のいくつかの体系的な問題があり、それらは次のとおりであるとも述べられています。
- RHVoiceのような従来の合成ソリューションとは異なり、Sileroの合成には、SAPI統合、インストールが簡単なクライアント、およびWindowsとAndroidの統合がありません。
- このようなソリューションでは前例のない速度ですが、高品質の弱いプロセッサでのオンザフライ合成には十分ではない可能性があります。
- 自動ストレスソルバーは同形異義語を処理せず、エラーを発生させますが、このバグは将来のリリースで修正される予定です。
- モデル内のモジュールの2つが量子化されているため、現在のバージョンの合成はAVXXNUMX命令のないプロセッサでは機能しません(またはPyTorch構成を具体的に変更する必要があります)。
- 現在のバージョンの合成は、基本的にPyTorchにのみ依存しています。
- モバイルプラットフォームで利用可能なlibtorchは、ONNXランタイムよりもはるかに面倒ですが、モデルのONNXバージョンはまだ提供されていません。
最後に、 次のバージョンのために 近い将来、次の変更を加えてリリースされる予定です。
- 合成速度は2〜4倍になります。
- CIS言語の合成テンプレート:カルムイク語、タタール語、ウズベク語、ウクライナ語が更新されます。
- ヨーロッパ言語のモデルが追加されます。
- インド言語のモデルが追加されます。
- 英語のモデルが追加されます。
もしあなたが それについてもっと知りたい、詳細を確認できます 次のリンクで。