Mozilla Common Voice 7.0 prihaja z več kot 13,000 urami glasovnih podatkov

Pred kratkim NVIDIA in Mozilla sta napovedali izdajo nove različice "Mozilla Common Voice 7.0" ki predstavlja več kot 13.000 ur glasovnih podatkov kolektivnega izvora in dodatek še 16 jezikov in to v primerjavi z zadnjo posodobitvijo, velikost prostornina materiala govori v zbirki se je povečala za skoraj 50% več.

Poleg tega, število podprtih jezikov se je povečalo s 60 na 76, vključno z dodatno podporo za beloruski, kazahstanski, uzbeški, bolgarski, armenski, azerbajdžanski in baškirski jezik prvič.

Za tiste, ki ne poznajo Common Voice, bi morali vedeti, da eTo je niz odprtih podatkovnih glasovnih podatkov največji na svetu in je namenjen demokratizaciji glasovne tehnologije. Uporabljajo ga raziskovalci, akademiki in razvijalci z vsega sveta

Zaposleni mobilizirajo svoje skupnosti za darovanje glasovnih podatkov v javno zbirko podatkov MCV, ki jo lahko vsak uporabi za usposabljanje tehnologije, ki podpira glasovne funkcije. Kot del sodelovanja NVIDIA cna Mozilla Common Voice, modeli, usposobljeni v tem in drugih javnih zbirkah podatkov, so na voljo brezplačno prek odprtokodnega orodja NVIDIA NeMo.

Projekt želi organizirati skupno delo za zbiranje baze podatkov glasovnih predlog, ob upoštevanju vse raznolikosti glasov in načinov govora. Zbrano bazo podatkov z zapisi različnih izgovorjav fraz, značilnih za človeški govor, je mogoče brez omejitev uporabljati v sistemih strojnega učenja in v raziskovalnih projektih.

Po mnenju avtorja knjižnice za neprekinjeno prepoznavanje govora Vosk so pomanjkljivosti nabora Common Voice enostranskost vokalnega materiala (prevlada moških pri 20-ih in 30-ih letih ter pomanjkanje materiala z glasom žensk, otrok in starejši), pomanjkanje variabilnosti besedišča (ponavljanje istih stavkov) in distribucija posnetkov MP3, ki so nagnjeni k popačenju.

O novi različici programa Common Voice 7.0

V tej novi različici sodelovalo več kot 75 tisoč ljudi pri pripravi gradiva v angleščini, ki narekuje 2637 ur potrjenega govora (bilo je 66 tisoč udeležencev in 1686 ur).

Tudi, kot smo omenili na začetku, ta nova različica uvaja 16 novih jezikov v zbirko podatkov Common Voice za skupaj 76 jezikov, od katerih je prvih pet jezikov po skupnih urah angleščina (2.630 ur), kinjaruanda (2.260), nemščina (1.040), katalonščina (920) in esperanto (840).

Jeziki, ki so se odstotno najbolj povečali, so tajski (skoraj 20-kratna rast, od 12 ur do 250 ur), luganda (9-kratna rast, od 8 ur do 80 ur), esperanto (rast več kot 7 -krat, s 100 ur na 840 ur) in tamilščino (rast več kot 8x, s 24 ur na 220 ur). Zanimivo, Ruanda je po kumulativnih podatkih na drugem mestu, za kar je bilo zbranih 2260 ur. Sledijo nemščina (1040), katalonščina (920) in esperanto (840). Nabor podatkov zdaj vsebuje več kot 182,000 edinstvenih glasov, kar je 25 -odstotna rast v skupnosti davkoplačevalcev v samo šestih mesecih.

Omenjeno je tudi, da so v okviru sodelovanja v projektu NVIDIA je za sisteme strojnega učenja pripravila že pripravljene usposobljene modele na podlagi zbranih podatkov (združljivo s programom PyTorch). Modeli so razdeljeni kot del brezplačnega in odprtega orodja NVIDIA NeMo, ki se na primer že uporablja v avtomatiziranih govornih storitvah MTS in Sberbank.

Modeli so namenjeni prepoznavanju govora, sintezi govora in sistemi za obdelavo informacij v naravnem jeziku raziskovalcem pa so lahko v pomoč pri oblikovanju sistemov za glasovni dialog, prepisovalnih platform in avtomatiziranih klicnih centrov. Za razliko od predhodno razpoložljivih projektov objavljeni modeli niso omejeni na angleško priznanje in zajemajo različne jezike, poudarke in oblike govora.

Končno če vas zanima več o tem, podrobnosti lahko preverite v naslednja povezava.

LinuxAdictos

Mozilla Common Voice 7.0 prihaja z več kot 13,000 urami govornih podatkov

O novi različici programa Common Voice 7.0

Pustite svoj komentar Prekliči odgovor