Mozilla Common Voice 7.0 ankommer med mere end 13,000 timers stemmedata

nylig NVIDIA og Mozilla annoncerede udgivelsen af ​​den nye version af "Mozilla Common Voice 7.0" som repræsenterer mere end 13.000 timers stemmedata af kollektiv oprindelse og tilføjelse af yderligere 16 sprog og det i forhold til den sidste opdatering, størrelsen på materialevolumen taler i samlingen det er steget med næsten 50% mere.

Derudover antallet af understøttede sprog er steget fra 60 til 76, herunder ekstra støtte til hviderussisk, kasakhisk, usbekisk, bulgarsk, armensk, aserbajdsjansk og basjkirisk sprog for første gang.

For dem, der ikke kender Common Voice, bør de vide, at eDette er et åbent datastemmesæt største i verden og er designet til at demokratisere taleteknologi. Det bruges af forskere, akademikere og udviklere fra hele verden.

Medarbejdere mobiliserer deres egne fællesskaber til at donere stemmedata til MCVs offentlige database, som alle kan bruge til at træne stemmeaktiveret teknologi. Som en del af NVIDIA c -samarbejdetom Mozilla Common Voice, modeller uddannet i dette og andre offentlige datasæt er gratis tilgængelige via en open source -værktøjskasse kaldet NVIDIA NeMo.

Projektet har til formål at organisere fælles arbejde med at akkumulere en database med stemmeskabelonerunder hensyntagen til alle de forskellige stemmer og måder at tale på. Den akkumulerede database med registreringer af forskellige udtaler af sætninger, der er typiske for menneskelig tale, kan bruges uden begrænsninger i maskinlæringssystemer og i forskningsprojekter.

Ifølge forfatteren af ​​Vosk bibliotek for kontinuerlig talegenkendelse er manglerne i Common Voice-sættet ensidigheden af ​​vokalmaterialet (mændenes overvægt i 20'erne og 30'erne og manglen på materiale med kvinder, børns stemme og ældre), den manglende variation i ordforråd (gentagelse af de samme sætninger) og distribution af MP3 -optagelser, der er tilbøjelige til forvrængning.

Om den nye version af Common Voice 7.0

I denne nye version mere end 75 tusinde mennesker deltog ved forberedelse af materialer på engelsk, der dikterede 2637 timers bekræftet tale (der var 66 tusinde deltagere og 1686 timer).

Også som vi nævnte i begyndelsen, denne nye version introducerer 16 nye sprog i Common Voice -datasættet for i alt 76 sprog, hvoraf de fem bedste sprog i alt timer er engelsk (2.630 timer), kinyarwanda (2.260), tysk (1.040), catalansk (920) og esperanto (840).

De sprog, der er steget mest i procent, er thailandske (næsten 20 gange vækst, fra 12 timer til 250 timer), luganda (9 gange vækst, fra 8 timer til 80 timer), Esperanto (vækst på mere end 7 gange, fra 100 timer til 840 timer) og Tamil (vækst på mere end 8x, fra 24 timer til 220 timer). Mærkeligt nok, Rwanda ligger på andenpladsen med hensyn til kumulative data, hvortil der blev indsamlet 2260 timer. De efterfølges af tysk (1040), catalansk (920) og esperanto (840). Datasættet indeholder nu over 182,000 unikke stemmer, en vækst på 25% i skatteydernes samfund på bare seks måneder.

Det nævnes også, at som en del af deres deltagelse i projektet, NVIDIA har udarbejdet færdige brugte uddannede modeller til maskinlæringssystemer baseret på indsamlede data (kompatibel med PyTorch). Modellerne distribueres som en del af et gratis og åbent NVIDIA NeMo -værktøj, som f.eks. Allerede bruges i de automatiserede taletjenester i MTS og Sberbank.

Modellerne er rettet mod talegenkendelse, talesyntese og informationsbehandlingssystemer i naturligt sprog og de kan være nyttige for forskere i designet af stemmedialogsystemer, transskriberingsplatforme og automatiserede callcentre. I modsætning til tidligere tilgængelige projekter er de offentliggjorte modeller ikke begrænset til engelsk anerkendelse og dækker forskellige sprog, accenter og taleformer.

Endelig hvis du er interesseret i at vide mere om det, kan du kontrollere detaljerne i følgende link.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for data: AB Internet Networks 2008 SL
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.