Silero, un système de synthèse vocale en réseau neuronal

Il ya quelques jours la sortie d'une nouvelle version publique a été annoncée du système de synthèse vocale par réseau de neurones silencieux Text-to-Speech, l'objectif principal du projet est de créer un système de synthèse vocale moderne de haute qualité qui n'est pas inférieur aux solutions commerciales des entreprises et qui est accessible à tous sans l'utilisation d'un équipement serveur coûteux.

Les modèles sont distribués sous la licence GNU AGPL, mais la société qui développe le projet ne divulgue pas le mécanisme de formation des modèles. Pour commencer, vous pouvez utiliser PyTorch et des frameworks prenant en charge le format ONNX.

Actuellement, Silero Il propose des modèles en anglais, espagnol, allemand, russe, français, ukrainien, tatar, ouzbek, bachkir, entre autres.

Synthèse vocale dans Silero Il est basé sur l'utilisation d'algorithmes de réseaux de neurones. méthodes de traitement du signal modernes et numériques profondément modifiées.

On observe que le principal problème des solutions modernes de réseaux de neuroness pour la synthèse vocale est que souvent ne sont disponibles que dans le cadre de solutions cloud payantes et les produits publics ont des exigences matérielles élevées, sont de qualité inférieure ou ne sont pas des produits finis et prêts à l'emploi. Par exemple, pour exécuter avec succès l'une des nouvelles architectures de synthèse de bout en bout populaires, VITS, en mode synthèse (c'est-à-dire pas pour la formation de modèles), des cartes vidéo avec plus de 16 gigaoctets de VRAM sont nécessaires.

Contrairement à la tendance actuelle, Les solutions de Silero fonctionnent avec succès même sur 1 thread x86 d'un processeur Intel avec des instructions AVX2. Sur 4 threads de processeur, la synthèse permet de synthétiser 30-60 secondes par seconde en mode synthèse 8 kHz, en mode 24 kHz – 15-20 secondes, et en mode 48 kHz – environ 10 secondes.

Principales nouveautés de la nouvelle version de Silero

Dans cette nouvelle version qui est présentée, il est mis en évidence que la taille du modèle est réduite 2 fois à 50 mégaoctets, de plus les modèles sont devenus 10 fois plus rapides et par exemple, en mode 24 kHz, ils peuvent synthétiser jusqu'à 20 secondes d'audio par seconde sur 4 threads de processeur.

à côté les modèles savent faire une pausepeut accepter les paragraphes entiers texte en entrée, les balises SSML sont prises en charge et toutes les options vocales d'une langue sont regroupées dans un modèle unique.

Il est également souligné que La synthèse fonctionne simultanément dans trois taux d'échantillonnage au choix : 8, 24 et 48 kilohertz, "problèmes des enfants": l'instabilité et l'omission de mots sont résolues et des drapeaux ont été ajoutés pour contrôler le placement automatique des accents et le placement de la lettre "ё".

D'autre part, il est également mentionné qu'il existe des problèmes systémiques inhérents à la synthèse Silero et ils sont :

Contrairement aux solutions de synthèse plus traditionnelles comme RHVoice, la synthèse de Silero manque d'intégration SAPI, de clients faciles à installer et d'intégrations Windows et Android.
La vitesse, bien que sans précédent pour une telle solution, peut ne pas être suffisante pour une synthèse à la volée sur des processeurs faibles de haute qualité.
Le solveur de contraintes automatique ne gère pas les homographes et fait toujours des erreurs, mais ce bogue sera corrigé dans les versions futures.
La version actuelle de la synthèse ne fonctionne pas sur les processeurs sans instructions AVX2 (ou vous devez modifier spécifiquement la configuration PyTorch), car l'un des modules à l'intérieur du modèle est quantifié.
La version actuelle de la synthèse a essentiellement la seule dépendance à PyTorch.
libtorch disponible pour les plates-formes mobiles est beaucoup plus lourd que le runtime ONNX, mais la version ONNX du modèle n'est pas encore fournie.

Enfin, il est mentionné que pour la prochaine version Il sortira prochainement avec les changements suivants :

Le taux de synthèse augmentera de 2 à 4 fois plus.
Les modèles de synthèse pour les langues de la CEI : kalmouk, tatar, ouzbek et ukrainien seront mis à jour.
Des modèles pour les langues européennes seront ajoutés.
Des modèles pour les langues indiennes seront ajoutés.
Des modèles pour l'anglais seront ajoutés.

Si vous intéressé à en savoir plus, vous pouvez vérifier les détails dans le lien suivant.

LinuxAdictos

Silero , un système de synthèse vocale par réseau de neurones

Principales nouveautés de la nouvelle version de Silero

Laisser un commentaire Annuler la réponse