Mozilla Common Voice 7.0 saabub enam kui 13,000 XNUMX tunni kõneandmetega

Hiljuti NVIDIA ja Mozilla teatasid uue versiooni "Mozilla Common Voice 7.0" vabastamisest mis esindab rohkem kui 13.000 16 tundi kollektiivse päritoluga kõneandmeid ja veel XNUMX keele lisamist võrreldes viimase uuendusega, suurus materjali maht kollektsioonis rääkimas see on kasvanud ligi 50% rohkem.

Lisaks toetatud keelte arv on suurenenud 60 -lt 76 -le, sealhulgas lisatoetus esmakordselt valgevene, kasahhi, usbeki, bulgaaria, armeenia, aserbaidžaani ja baškiiri keeltele.

Neile, kes ei tunne Common Voice'i, peaksid nad teadma, et eSee on avatud andmeside andmekogum suurim maailmas ja on mõeldud häältehnoloogia demokratiseerimiseks. Seda kasutavad teadlased, akadeemikud ja arendajad kogu maailmas.

Töötajad mobiliseerivad oma kogukondi kõneandmete annetamiseks MCV avalikku andmebaasi, mida igaüks saab kasutada häältehnoloogia koolitamiseks. Osana NVIDIA koostööst cMozilla Common Voice'is, selles ja muudes avalikes andmekogumites koolitatud mudelid on tasuta saadaval avatud lähtekoodiga tööriistakomplekti nimega NVIDIA NeMo.

El proyecto eesmärk on korraldada ühistööd häälemallide andmebaasi kogumiseks, võttes arvesse kõiki erinevaid hääli ja kõneviise. Kogunenud andmebaasi, mis sisaldab kirjeid inimkõnele iseloomulike fraaside erinevate häälduste kohta, saab piiranguteta kasutada masinõppesüsteemides ja uurimisprojektides.

Voski pideva häältuvastuse raamatukogu autori sõnul on ühise hääle komplekti puudusteks vokaalmaterjali ühekülgsus (20–30-aastaste meeste ülekaal ja materjali puudumine naiste, laste häälega) eakad), sõnavara varieeruvuse puudumine (samade fraaside kordamine) ja moonutustele kalduvate MP3 -salvestiste levitamine.

Teave Common Voice 7.0 uue versiooni kohta

Selles uues versioonis osales üle 75 tuhande inimese ingliskeelsete materjalide ettevalmistamisel, dikteerides 2637 tundi kinnitatud kõnet (osalejaid oli 66 tuhat ja 1686 tundi).

Samuti nagu me alguses mainisime, see uus versioon tutvustab 16 uut keelt ühise hääle andmekogusse kokku 76 keele jaoks, millest viis parimat keelt tundide järgi on inglise keel (2.630 tundi), kinyarwanda (2.260), saksa keel (1.040), katalaani keel (920) ja esperanto keel (840).

Keeled, mis on protsentuaalselt enim kasvanud, on tai (kasv ligi 20 korda, 12 tunnilt 250 tunnini), luganda (kasv 9 korda, 8 tunnist 80 tunnini), Esperanto (kasv rohkem kui 7 korda, 100 tunnist 840 tunnini) ja tamili (kasv üle 8x, 24 tunnilt 220 tunnini). Huvitav, Rwanda on kumulatiivsete andmete poolest teisel kohal, mille jaoks koguti 2260 tundi. Neile järgnevad saksa (1040), katalaani (920) ja esperanto (840). Andmekogus on nüüd üle 182,000 25 unikaalse hääle, mis on maksumaksjate kogukonnas XNUMX% kasv vaid kuue kuuga.

Samuti mainitakse, et osana projektis osalemisest NVIDIA on masinõppesüsteemide jaoks ette valmistanud kasutusvalmis koolitatud mudelid kogutud andmete põhjal (ühildub PyTorchiga). Mudeleid levitatakse tasuta ja avatud NVIDIA NeMo tööriista osana, mida näiteks kasutatakse juba MTS -i ja Sberbanki automatiseeritud kõneteenustes.

Mudelid on mille eesmärk on kõnetuvastus, kõnesüntees ja loomulikus keeles töötlev süsteem ja need võivad olla teadlastele kasulikud hääldialoogisüsteemide, transkriptsiooniplatvormide ja automatiseeritud kõnekeskuste kujundamisel. Erinevalt varem kättesaadavatest projektidest ei piirdu avaldatud mudelid ainult inglise keele äratundmisega ning hõlmavad erinevaid keeli, aktsente ja kõneviise.

Lõpuks kui olete huvitatud sellest rohkem teada saama, saate üksikasju vaadata järgmine link.

LinuxAdictos

Mozilla Common Voice 7.0 jõuab kohale rohkem kui 13,000 XNUMX tunni kõneandmetega

Teave Common Voice 7.0 uue versiooni kohta

Jäta oma kommentaar Tühista vastus