Silero, egy neurális hálózati beszédszintézis rendszer

Pár napja bejelentették az új nyilvános verzió kiadását a neurális hálózat beszédszintézis rendszerének silero Text-to-Speech, a projekt fő célja egy modern, jó minőségű beszédszintézis rendszer létrehozása, amely nem rosszabb a vállalatok kereskedelmi megoldásainál, és mindenki számára elérhető drága szerverberendezések használata nélkül.

A modelleket a GNU AGPL licenc alatt forgalmazzák, de a projektet fejlesztő cég nem hozza nyilvánosságra a képzési modellek mechanizmusát. A kezdéshez használhatja a PyTorch-ot és az ONNX formátumot támogató keretrendszereket.

Jelenleg Silero Többek között angol, spanyol, német, orosz, francia, ukrán, tatár, üzbég, baskír nyelvű modelljei vannak.

Hangszintézis a Silero-ban Neurális hálózati algoritmusok használatán alapul. mélyen módosított modern és digitális jelfeldolgozási módszerek.

Megfigyelhető, hogy a modern neurális hálózati megoldások fő problémájas a beszédszintézisnél az a gyakran csak fizetős felhőmegoldások részeként érhetők el és a nyilvános termékek magas hardverigényűek, gyengébb minőségűek, vagy nem kész és használatra kész termékek. Például az egyik népszerű új, end-to-end szintézis architektúra, a VITS szintézis módban való sikeres futtatásához (azaz nem modell betanításhoz) több mint 16 gigabájt VRAM-mal rendelkező videokártyákra van szükség.

A jelenlegi trenddel ellentétben A Silero megoldásai még 1 x86 szálon is sikeresen futnak Intel processzor AVX2 utasításokkal. A 4 processzorszálon a szintézis 30 kHz-es szintézis módban másodpercenként 60-8 másodpercig, 24 kHz-es módban 15-20 másodpercig, 48 kHz-es módban pedig körülbelül 10 másodpercig teszi lehetővé a szintetizálást.

A Silero új verziójának főbb újdonságai

Ebben a bemutatott új verzióban kiemelik, hogy a modell mérete 2-szer 50 megabájtra csökken, ráadásul a modellek 10-szer gyorsabbak lettek és például 24 kHz-es módban akár 20 másodpercnyi hangot is képesek szintetizálni másodpercenként 4 processzorszálon.

Amellett a modellek tudják, hogyan kell szünetet tartani, lehet fogadja el a teljes bekezdéseket szöveg bemenetként, az SSML-címkék támogatottak, és egy nyelvhez tartozó összes beszédopció egyetlen modellbe van csomagolva.

Azt is kiemelik A szintézis egyidejűleg három mintavételi frekvenciában működik: 8, 24 és 48 kilohertz, „gyerekproblémák”: megoldódott az instabilitás és a szavak kihagyása, és zászlókkal egészítették ki az ékezetek automatikus elhelyezését és a „ё” betű elhelyezését.

Másrészt azt is megemlítik, hogy a Silero szintézisben rejlik néhány szisztémás probléma, amelyek a következők:

  • Ellentétben a hagyományos szintézis megoldásokkal, mint például az RHVoice, a Silero szintéziséből hiányzik a SAPI integráció, a könnyen telepíthető kliensek, valamint a Windows és az Android integráció.
  • A sebesség, bár példátlan egy ilyen megoldásnál, nem biztos, hogy elég a menet közbeni szintézishez jó minőségű gyenge processzorokon.
  • Az automatikus stresszoldó nem kezeli a homográfokat, és továbbra is hibázik, de ezt a hibát a jövőbeni kiadásokban javítják.
  • A szintézis jelenlegi verziója nem működik AVX2 utasítások nélküli processzorokon (vagy speciálisan módosítani kell a PyTorch konfigurációt), mert a modellben lévő egyik modul kvantált.
  • A szintézis jelenlegi verziója lényegében egyedül a PyTorch-tól függ.
  • A mobil platformokra elérhető libtorch sokkal körülményesebb, mint az ONNX futtatókörnyezete, de a modell ONNX verziója egyelőre nem biztosított.

Végül megemlítik azt a következő verzióhoz A közeljövőben a következő változásokkal fog megjelenni:

  • A szintézis sebessége 2-4-szeresére nő.
  • Frissítésre kerülnek a FÁK-nyelvek szintézissablonjai: kalmük, tatár, üzbég és ukrán.
  • Az európai nyelvekhez használható modellek hozzáadásra kerülnek.
  • Az indiai nyelvekhez használható modellek hozzáadásra kerülnek.
  • Az angol nyelvű modellek hozzáadásra kerülnek.

Ha érdekelne többet megtudni róla, ellenőrizheti a részleteket A következő linken.


Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: AB Internet Networks 2008 SL
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.