Silero, un sistema de síntesi de veu de xarxa neuronal

Fa diversos dies es va donar a conèixer l'alliberament d'una nova versió pública del sistema de síntesi de veu de xarxa neuronal Cadira Text-to-Speech, l'objectiu principal del projecte del qual és crear un sistema modern de síntesi de veu d'alta qualitat que no sigui inferior a les solucions comercials de les corporacions i que estigui disponible per a tothom sense l'ús de costosos equips de servidor.

Els models es distribueixen sota la llicència GNU AGPL, però l'empresa que desenvolupa el projecte no revela el mecanisme per entrenar models. Per iniciar, es pot utilitzar PyTorch i marcs que admetin el format ONNX.

Actualment, Silero compta amb models en Anglès, Espanyol, Alemany, Rus, Francès, Ucraïnès, Tartaro, Uzbeko, Bashkir, entre d'altres.

La síntesi de veu a Silero es basa en lús d algorismes de xarxes neuronals moderns profundament modificats i mètodes de processament de senyals digitals.

S'observa que el principal problema de les solucions de xarxes neuronals modernas per a la síntesi de veu és que, sovint, només estan disponibles com a part de les solucions al núvol pagues i els productes públics tenen requisits de maquinari elevats, són de menor qualitat o no són productes acabats i llestos per utilitzar. Per exemple, per executar sense problemes una de les noves arquitectures populars de síntesi d'extrem a extrem, VITS, en mode de síntesi (és a dir, no per a entrenament de models), calen targetes de vídeo amb més de 16 gigabytes de VRAM.

Contràriament a la tendència actual, les solucions de Siler s'executen amb èxit fins i tot en 1 subprocés x86 d'un processador Intel amb instruccions AVX2. En 4 subprocessos de processador, la síntesi us permet sintetitzar de 30 a 60 segons per segon en mode de síntesi de 8 kHz, en mode de 24 kHz – 15-20 segons i en mode de 48 kHz – al voltant de 10 segons.

Principals novetats de la nova versió de Silero

En aquesta nova versió que es presenta es destaca que la mida del model es redueix 2 vegades a 50 megabytes, a més que els models s'han tornat 10 vegades més ràpids i per exemple, en el mode de 24 kHz, poden sintetitzar fins a 20 segons d'àudio per segon a 4 fils de processador.

A més d'això els models saben com fer una pausa, poden acceptar paràgrafs complets de text com a entrada, s'admeten etiquetes SSML i que totes les opcions de veu per a un idioma s'empaqueten en un sol model.

També es destaca que Synthesis funciona alhora en tres freqüències de mostreig per triar: 8, 24 i 48 quilohercis, es resolen els «problemes dels nens»: inestabilitat i omissió de paraules i es van afegir banderes per controlar la col·locació automàtica d'accents i la col·locació de la lletra «ё».

D'altra banda, també s'esmenta que hi ha alguns problemes sistèmics inherents a la síntesi de Silero i són:

A diferència de les solucions de síntesi més tradicionals com RHVoice, la síntesi de Siler manca d'integració amb SAPI, clients fàcils d'instal·lar i integracions amb Windows i Android.
La velocitat, encara que sense precedents per a una solució d'aquest tipus, pot no ser suficient per a la síntesi sobre la marxa en processadors febles d'alta qualitat.
La solució automàtica d'estrès no maneja homògrafs i encara fa errors, però aquesta falla se solucionarà en versions futures.
La versió actual de la síntesi no funciona en processadors sense instruccions AVX2 (o necessita canviar específicament la configuració de PyTorch), perquè un dels mòduls dins del model està quantificat.
La versió actual de la síntesi té essencialment l'única dependència de PyTorch.
libtorch disponible per a plataformes mòbils és molt més molest que el temps d'execució d'ONNX, però encara no es proporciona la versió ONNX del model.

Finalment s'esmenta que per a la propera versió es publicarà en un futur proper amb els següents canvis:

La taxa de síntesi augmentarà de 2 a 4 cops més.
S'actualitzaran els models de síntesi per als idiomes de la CEI: kalmuko, tàrtar, uzbek i ucraïnès.
S'hi afegiran models per a idiomes europeus.
S'hi afegiran models per a idiomes indis.
S'hi afegiran models per a anglès.

si estàs interessat a poder conèixer més sobre això, Pots consultar els detalls en el següent enllaç.

LinuxAdictos

Silero, un sistema de síntesi de veu de xarxa neuronal

Principals novetats de la nova versió de Silero

Deixa el teu comentari Cancel lar la resposta