Mozilla Common Voice 7.0 saapuu yli 13,000 XNUMX tunnin puhetiedolla

äskettäin NVIDIA ja Mozilla julkistivat uuden version "Mozilla Common Voice 7.0" joka edustaa yli 13.000 16 tuntia yhteistä alkuperää olevaa äänidataa ja lisäksi XNUMX muuta kieltä verrattuna viime päivitykseen, koko materiaalin tilavuus puhuu kokoelmassa se on kasvanut lähes 50% enemmän.

Lisäksi, tuettujen kielten määrä on noussut 60: sta 76: een, mukaan lukien lisätuki Valko -Venäjän, Kazakstanin, Uzbekistanin, Bulgarian, Armenian, Azerbaidžanin ja Bashkirin kielille ensimmäistä kertaa.

Niille, jotka eivät tunne Common Voicea, heidän tulee tietää, että esimTämä on avoimen datan äänidatasarja suurin maailmassa ja on suunniteltu demokratisoimaan ääniteknologiaa. Sitä käyttävät tutkijat, tutkijat ja kehittäjät maailmanlaajuisesti.

Työntekijät mobilisoivat omia yhteisöjään puhedatan luovuttamiseen MCV: n julkiseen tietokantaan, jota kuka tahansa voi käyttää puhekäyttöisen tekniikan kouluttamiseen. Osana NVIDIA -yhteistyötä cMozilla Common Voice -palvelussa, tähän ja muihin julkisiin tietojoukkoihin koulutetut mallit ovat saatavilla ilmaiseksi NVIDIA NeMo -nimisen avoimen lähdekoodin työkalupakin kautta.

El proyecto tavoitteena on järjestää yhteinen työ äänimallien tietokannan keräämiseksi, ottaen huomioon kaikki äänet ja puhetapa. Kertynyttä tietokantaa, jossa on tallenteita ihmisen puheelle tyypillisten lauseiden erilaisista ääntämisistä, voidaan käyttää ilman rajoituksia koneoppimisjärjestelmissä ja tutkimushankkeissa.

Voskin jatkuvan puheentunnistuskirjaston tekijän mukaan Common Voice -sarjan puutteita ovat laulumateriaalin yksipuolisuus (20–30-vuotiaiden miesten ylivoima ja materiaalin puute naisten, lasten äänellä) ja vanhukset), sanaston vaihtelevuuden puute (samojen lauseiden toistaminen) ja vääristymille alttiiden MP3 -tallenteiden jakelu.

Tietoja Common Voice 7.0: n uudesta versiosta

Tässä uudessa versiossa osallistui yli 75 tuhatta ihmistä englanninkielisten materiaalien valmistelussa, sanellen 2637 tuntia vahvistettua puhetta (osallistujia oli 66 tuhatta ja 1686 tuntia).

Myös kuten alussa mainitsimme, Tämä uusi versio esittelee 16 uutta kieltä Common Voice -tietoaineistoon yhteensä 76 kielelle, joista viisi eniten kieltä tunnit ovat englanti (2.630 tuntia), kiinaarwanda (2.260), saksa (1.040), katalaani (920) ja esperanto (840).

Kielet, jotka ovat lisääntyneet eniten prosentteina, ovat thai (kasvu lähes 20 kertaa, 12 tunnista 250 tuntiin), luganda (kasvu 9 kertaa, 8 tunnista 80 tuntiin), Esperanto (kasvu yli 7 kertaa, 100 tunnista 840 tuntiin) ja tamiliksi (kasvu yli 8x, 24 tunnista 220 tuntiin). Utelias, Ruanda on kumulatiivisten tietojen perusteella toisella sijalla, jota varten kerättiin 2260 tuntia. Heitä seuraavat saksa (1040), katalaani (920) ja esperanto (840). Tietojoukossa on nyt yli 182,000 25 ainutlaatuista ääntä, mikä on XNUMX% enemmän veronmaksajayhteisössä vain kuudessa kuukaudessa.

Mainitaan myös, että osana hankkeeseen osallistumistaan NVIDIA on valmistellut käyttövalmiita koulutettuja malleja koneoppimisjärjestelmille perustuu kerättyihin tietoihin (yhteensopiva PyTorchin kanssa). Mallit jaetaan osana ilmaista ja avointa NVIDIA NeMo -työkalua, jota esimerkiksi käytetään jo MTS: n ja Sberbankin automaattisissa puhepalveluissa.

Mallit ovat tarkoitettu puheentunnistus-, puhesynteesi- ja tietojenkäsittelyjärjestelmiin luonnollisella kielellä ja ne voivat olla hyödyllisiä tutkijoille äänidialogijärjestelmien, transkriptioalustojen ja automaattisten puhelinkeskusten suunnittelussa. Toisin kuin aiemmin saatavilla olevat projektit, julkaistut mallit eivät rajoitu vain englannin kielen tunnustamiseen ja kattavat erilaisia kieliä, aksentteja ja puhemuotoja.

Vihdoin jos olet kiinnostunut tietämään siitä lisää, voit tarkistaa yksityiskohdat seuraava linkki.

LinuxAdictos

Mozilla Common Voice 7.0 saapuu yli 13,000 XNUMX tunnin äänidatan kanssa

Tietoja Common Voice 7.0: n uudesta versiosta

Jätä kommentti Peruuta vastaus