Pred pár dňami bolo oznámené vydanie novej verejnej verzie systému neurónovej siete na syntézu reči silero Text-to-Speech, hlavným cieľom projektu je vytvoriť moderný vysokokvalitný systém syntézy reči, ktorý nie je horší ako komerčné riešenia korporácií a je dostupný každému bez použitia drahého serverového vybavenia.
Modely sú šírené pod licenciou GNU AGPL, no spoločnosť, ktorá projekt vyvíja, mechanizmus tréningových modelov nezverejňuje. Na začiatok môžete použiť PyTorch a rámce, ktoré podporujú formát ONNX.
V súčasnosti Silero Modely má okrem iného v angličtine, španielčine, nemčine, ruštine, francúzštine, ukrajinčine, tatárčine, uzbečtine, baškirčine.
Syntéza hlasu v Silero Je založený na použití algoritmov neurónových sietí. hlboko modifikované moderné a digitálne metódy spracovania signálu.
Je to pozorované hlavný problém riešení moderných neurónových sietís pre syntézu reči je to často sú dostupné len ako súčasť platených cloudových riešení a verejné produkty majú vysoké hardvérové požiadavky, sú nižšej kvality alebo nie sú hotové a pripravené na použitie. Napríklad na úspešné spustenie jednej z populárnych nových architektúr end-to-end syntézy VITS v režime syntézy (tj nie na trénovanie modelov) sú potrebné grafické karty s viac ako 16 gigabajtmi VRAM.
Na rozdiel od súčasného trendu, Riešenia spoločnosti Silero fungujú úspešne aj na vlákne 1 x 86 procesora Intel s inštrukciami AVX2. Na 4 vláknach procesora vám syntéza umožňuje syntetizovať 30 – 60 sekúnd za sekundu v režime syntézy 8 kHz, v režime 24 kHz – 15 – 20 sekúnd a v režime 48 kHz – približne 10 sekúnd.
Hlavné novinky novej verzie Silero
V tejto novej verzii, ktorá je prezentovaná, je zdôraznené, že veľkosť modelu sa zmenší 2-krát na 50 megabajtovNavyše sa modely stali 10-krát rýchlejšie a napríklad v režime 24 kHz dokážu syntetizovať až 20 sekúnd zvuku za sekundu na 4 vláknach procesora.
Okrem toho modelky vedia pauzovať, môžu prijať celé odseky text ako vstup, sú podporované značky SSML a všetky možnosti reči pre jazyk sú zabalené do jedného modelu.
Je tiež zdôraznené, že Syntéza pracuje súčasne v troch vzorkovacích frekvenciách, z ktorých si môžete vybrať: 8, 24 a 48 kHz, „problémy detí“: nestabilita a vynechávanie slov sú vyriešené a boli pridané vlajky na ovládanie automatického umiestňovania akcentov a umiestňovania písmena „ё“.
Na druhej strane sa tiež uvádza, že syntéze Silero sú vlastné niektoré systémové problémy, ktorými sú:
- Na rozdiel od tradičnejších riešení syntézy, ako je RHVoice, syntéze Silero chýba integrácia SAPI, ľahko inštalovateľných klientov a integrácie Windows a Android.
- Rýchlosť, aj keď je pre takéto riešenie nevídaná, nemusí stačiť na syntézu za chodu na kvalitných slabých procesoroch.
- Automatický riešič stresu nespracúva homografy a stále robí chyby, ale táto chyba bude opravená v budúcich vydaniach.
- Aktuálna verzia syntézy nefunguje na procesoroch bez inštrukcií AVX2 (alebo je potrebné špecificky zmeniť konfiguráciu PyTorch), pretože jeden z modulov vo vnútri modelu je kvantovaný.
- Aktuálna verzia syntézy má v podstate jedinú závislosť od PyTorch.
- libtorch dostupný pre mobilné platformy je oveľa ťažkopádnejší ako runtime ONNX, ale verzia modelu ONNX zatiaľ nie je k dispozícii.
Nakoniec sa to spomína pre ďalšiu verziu Bude vydaný v blízkej budúcnosti s nasledujúcimi zmenami:
- Rýchlosť syntézy sa zvýši 2 až 4 krát viac.
- Budú aktualizované šablóny syntézy pre jazyky SNŠ: Kalmyk, Tatar, Uzbek a Ukrajinčina.
- Pridajú sa modely pre európske jazyky.
- Pridajú sa modely pre indické jazyky.
- Modely pre angličtinu budú pridané.
Ak ste záujem dozvedieť sa o tom viac, môžete skontrolovať podrobnosti Na nasledujúcom odkaze.