Silero, neuroverkon puhesynteesijärjestelmä

Muutama päivä sitten julkistettiin uusi julkinen versio hermoverkon puhesynteesijärjestelmästä silero Text-to-Speech, hankkeen päätavoitteena on luoda nykyaikainen korkealaatuinen puhesynteesijärjestelmä, joka ei ole huonompi kuin yritysten kaupalliset ratkaisut ja on kaikkien saatavilla ilman kalliita palvelinlaitteita.

Mallit jaetaan GNU AGPL -lisenssillä, mutta projektia kehittävä yritys ei paljasta koulutusmallien mekanismia. Aloita käyttämällä PyTorchia ja kehyksiä, jotka tukevat ONNX-muotoa.

Tällä hetkellä Silero Siinä on malleja muun muassa englanniksi, espanjaksi, saksaksi, venäjäksi, ranskaksi, ukrainaksi, tatariksi, uzbekiksi ja baškiiriksi.

Äänisynteesi Silerossa Se perustuu hermoverkkoalgoritmien käyttöön. syvästi muunneltuja moderneja ja digitaalisia signaalinkäsittelymenetelmiä.

On havaittu, että nykyaikaisten hermoverkkoratkaisujen pääongelmas puhesynteesille on niin usein ovat saatavilla vain osana maksullisia pilviratkaisuja ja julkisilla tuotteilla on korkeat laitteistovaatimukset, ne ovat huonolaatuisempia tai eivät ole valmiita ja käyttövalmiita tuotteita. Esimerkiksi yhden suositun uusien päästä päähän -synteesiarkkitehtuurien, VITS:n, onnistuneeseen ajamiseen synteesitilassa (eli ei mallikoulutukseen) tarvitaan näytönohjain, jossa on yli 16 gigatavua VRAM-muistia.

Toisin kuin nykyinen trendi, Sileron ratkaisut toimivat onnistuneesti jopa 1 x86 kierteellä Intel-prosessorin AVX2-ohjeilla. 4 prosessorisäikeellä synteesin avulla voit syntetisoida 30-60 sekuntia sekunnissa 8 kHz synteesitilassa, 24 kHz -tilassa 15-20 sekuntia ja 48 kHz -tilassa noin 10 sekuntia.

Sileron uuden version tärkeimmät uutuudet

Tässä esitellyssä uudessa versiossa korostetaan sitä mallin koko pienennetään 2 kertaa 50 megatavuun, ja malleista on tullut 10 kertaa nopeampia ja esimerkiksi 24 kHz -tilassa ne voivat syntetisoida jopa 20 sekuntia ääntä sekunnissa 4 prosessorisäikeellä.

Sen lisäksi mallit osaavat pysähtyä, he voivat hyväksyä kokonaiset kappaleet tekstiä syötteenä, SSML-tunnisteita tuetaan ja kaikki kielen puhevaihtoehdot on pakattu yhteen malliin.

Se on myös korostettu Synteesi toimii samanaikaisesti kolmella valittavissa olevalla näytetaajuudella: 8, 24 ja 48 kilohertsiä, "lasten ongelmat": epävakaus ja sanojen poisjääminen on ratkaistu ja lippuja on lisätty ohjaamaan automaattista aksenttimerkkien ja kirjaimen "ё" sijoittelua.

Toisaalta mainitaan myös, että Sileron synteesiin liittyy joitain systeemisiä ongelmia, ja ne ovat:

Toisin kuin perinteisemmät synteesiratkaisut, kuten RHVoice, Sileron synteesistä puuttuu SAPI-integraatio, helposti asennettavat asiakkaat sekä Windows- ja Android-integraatiot.
Nopeus, vaikka se onkin ennennäkemätön tällaiselle ratkaisulle, ei välttämättä riitä lennossa tapahtuvaan synteesiin korkealaatuisilla heikkoilla prosessoreilla.
Automaattinen stressinratkaisija ei käsittele homografeja ja tekee silti virheitä, mutta tämä bugi korjataan tulevissa julkaisuissa.
Synteesin nykyinen versio ei toimi prosessoreissa ilman AVX2-käskyjä (tai sinun on erityisesti muutettava PyTorch-kokoonpanoa), koska yksi mallin sisällä olevista moduuleista on kvantisoitu.
Nykyisellä synteesin versiolla on käytännössä ainoa riippuvuus PyTorchista.
mobiilialustoille saatavilla oleva libtorch on paljon hankalampi kuin ONNX-ajoaika, mutta mallin ONNX-versiota ei ole vielä toimitettu.

Lopuksi mainitaan se seuraavaa versiota varten Se julkaistaan lähitulevaisuudessa seuraavin muutoksin:

Synteesinopeus kasvaa 2-4 kertaa enemmän.
Synteesimallit IVY-kielille: kalmyki, tatari, uzbekki ja ukraina päivitetään.
Malleja eurooppalaisille kielille lisätään.
Malleja Intian kielille lisätään.
Englanninkieliset mallit lisätään.

Jos olet kiinnostunut tietämään asiasta lisää, voit tarkistaa yksityiskohdat Seuraavassa linkissä.

LinuxAdictos

Silero, neuroverkon puhesynteesijärjestelmä

Sileron uuden version tärkeimmät uutuudet

Jätä kommentti Peruuta vastaus