Pár napja bejelentették az új nyilvános verzió kiadását a neurális hálózat beszédszintézis rendszerének silero Text-to-Speech, a projekt fő célja egy modern, jó minőségű beszédszintézis rendszer létrehozása, amely nem rosszabb a vállalatok kereskedelmi megoldásainál, és mindenki számára elérhető drága szerverberendezések használata nélkül.
A modelleket a GNU AGPL licenc alatt forgalmazzák, de a projektet fejlesztő cég nem hozza nyilvánosságra a képzési modellek mechanizmusát. A kezdéshez használhatja a PyTorch-ot és az ONNX formátumot támogató keretrendszereket.
Jelenleg Silero Többek között angol, spanyol, német, orosz, francia, ukrán, tatár, üzbég, baskír nyelvű modelljei vannak.
Hangszintézis a Silero-ban Neurális hálózati algoritmusok használatán alapul. mélyen módosított modern és digitális jelfeldolgozási módszerek.
Megfigyelhető, hogy a modern neurális hálózati megoldások fő problémájas a beszédszintézisnél az a gyakran csak fizetős felhőmegoldások részeként érhetők el és a nyilvános termékek magas hardverigényűek, gyengébb minőségűek, vagy nem kész és használatra kész termékek. Például az egyik népszerű új, end-to-end szintézis architektúra, a VITS szintézis módban való sikeres futtatásához (azaz nem modell betanításhoz) több mint 16 gigabájt VRAM-mal rendelkező videokártyákra van szükség.
A jelenlegi trenddel ellentétben A Silero megoldásai még 1 x86 szálon is sikeresen futnak Intel processzor AVX2 utasításokkal. A 4 processzorszálon a szintézis 30 kHz-es szintézis módban másodpercenként 60-8 másodpercig, 24 kHz-es módban 15-20 másodpercig, 48 kHz-es módban pedig körülbelül 10 másodpercig teszi lehetővé a szintetizálást.
A Silero új verziójának főbb újdonságai
Ebben a bemutatott új verzióban kiemelik, hogy a modell mérete 2-szer 50 megabájtra csökken, ráadásul a modellek 10-szer gyorsabbak lettek és például 24 kHz-es módban akár 20 másodpercnyi hangot is képesek szintetizálni másodpercenként 4 processzorszálon.
Amellett a modellek tudják, hogyan kell szünetet tartani, lehet fogadja el a teljes bekezdéseket szöveg bemenetként, az SSML-címkék támogatottak, és egy nyelvhez tartozó összes beszédopció egyetlen modellbe van csomagolva.
Azt is kiemelik A szintézis egyidejűleg három mintavételi frekvenciában működik: 8, 24 és 48 kilohertz, „gyerekproblémák”: megoldódott az instabilitás és a szavak kihagyása, és zászlókkal egészítették ki az ékezetek automatikus elhelyezését és a „ё” betű elhelyezését.
Másrészt azt is megemlítik, hogy a Silero szintézisben rejlik néhány szisztémás probléma, amelyek a következők:
- Ellentétben a hagyományos szintézis megoldásokkal, mint például az RHVoice, a Silero szintéziséből hiányzik a SAPI integráció, a könnyen telepíthető kliensek, valamint a Windows és az Android integráció.
- A sebesség, bár példátlan egy ilyen megoldásnál, nem biztos, hogy elég a menet közbeni szintézishez jó minőségű gyenge processzorokon.
- Az automatikus stresszoldó nem kezeli a homográfokat, és továbbra is hibázik, de ezt a hibát a jövőbeni kiadásokban javítják.
- A szintézis jelenlegi verziója nem működik AVX2 utasítások nélküli processzorokon (vagy speciálisan módosítani kell a PyTorch konfigurációt), mert a modellben lévő egyik modul kvantált.
- A szintézis jelenlegi verziója lényegében egyedül a PyTorch-tól függ.
- A mobil platformokra elérhető libtorch sokkal körülményesebb, mint az ONNX futtatókörnyezete, de a modell ONNX verziója egyelőre nem biztosított.
Végül megemlítik azt a következő verzióhoz A közeljövőben a következő változásokkal fog megjelenni:
- A szintézis sebessége 2-4-szeresére nő.
- Frissítésre kerülnek a FÁK-nyelvek szintézissablonjai: kalmük, tatár, üzbég és ukrán.
- Az európai nyelvekhez használható modellek hozzáadásra kerülnek.
- Az indiai nyelvekhez használható modellek hozzáadásra kerülnek.
- Az angol nyelvű modellek hozzáadásra kerülnek.
Ha érdekelne többet megtudni róla, ellenőrizheti a részleteket A következő linken.