Mozilla Common Voice 7.0 kommer med mer enn 13,000 XNUMX timer med taledata

nylig NVIDIA og Mozilla kunngjorde utgivelsen av den nye versjonen av "Mozilla Common Voice 7.0" som representerer mer enn 13.000 16 timer med taledata av kollektiv opprinnelse og tillegg av ytterligere XNUMX språk og det sammenlignet med den siste oppdateringen, størrelsen på materialvolum snakker i samlingen den har økt med nesten 50% mer.

Videre antallet språk som støttes har økt fra 60 til 76, inkludert tilleggsstøtte for hviterussisk, kasakhisk, usbekisk, bulgarsk, armensk, aserbajdsjansk og basjkirisk språk for første gang.

For de som ikke er kjent med Common Voice, bør de vite at eDette er et åpent datastemmesett største i verden og er designet for å demokratisere taleteknologi. Den brukes av forskere, akademikere og utviklere over hele verden.

Ansatte mobiliserer sine egne lokalsamfunn for å donere taledata til MCVs offentlige database, som alle kan bruke til å trene tale-aktivert teknologi. Som en del av NVIDIA -samarbeidet cpå Mozilla Common Voice, modeller som er opplært i dette og andre offentlige datasett er gratis tilgjengelig via en verktøykasse med åpen kildekode kalt NVIDIA NeMo.

Prosjektet har som mål å organisere felles arbeid for å samle en database med talemaler, tar hensyn til alle de forskjellige stemmene og måtene å snakke på. Den akkumulerte databasen med registreringer av forskjellige uttaler av fraser som er typiske for menneskelig tale, kan brukes uten begrensninger i maskinlæringssystemer og i forskningsprosjekter.

Ifølge forfatteren av Vosk bibliotek for kontinuerlig stemmegjenkjenning er manglene i Common Voice-settet ensidigheten til vokalmaterialet (overvekt av menn i 20- og 30-årene og mangel på materiale med stemmen til kvinner, barn og eldre), mangel på variabilitet i vokabular (gjentagelse av de samme setningene) og distribusjon av MP3 -innspillinger som er utsatt for forvrengning.

Om den nye versjonen av Common Voice 7.0

I denne nye versjonen mer enn 75 tusen mennesker deltok ved utarbeidelse av materialer på engelsk, dikterende 2637 timer bekreftet tale (det var 66 tusen deltakere og 1686 timer).

Også som vi nevnte i begynnelsen, denne nye versjonen introduserer 16 nye språk inn i Common Voice -datasettet for totalt 76 språk, hvorav de fem beste språkene etter totaltimer er engelsk (2.630 timer), kinyarwanda (2.260), tysk (1.040), katalansk (920) og esperanto (840).

Språkene som har økt mest i prosent er thai (vekst på nesten 20 ganger, fra 12 timer til 250 timer), luganda (vekst på 9 ganger, fra 8 timer til 80 timer), esperanto (vekst på mer enn 7 ganger, fra 100 timer til 840 timer) og tamilsk (vekst på mer enn 8x, fra 24 timer til 220 timer). Merkelig nok, Rwanda ligger på andreplass når det gjelder kumulative data, som det ble samlet inn 2260 timer for. De blir fulgt av tysk (1040), katalansk (920) og esperanto (840). Datasettet inneholder nå over 182,000 25 unike stemmer, en vekst på XNUMX% i skattebetalermiljøet på bare seks måneder.

Det nevnes også at som en del av deres deltakelse i prosjektet, NVIDIA har utarbeidet ferdig opplærte modeller for maskinlæringssystemer basert på innsamlede data (kompatibel med PyTorch). Modellene distribueres som en del av et gratis og åpent NVIDIA NeMo -verktøy, som for eksempel allerede brukes i de automatiserte taletjenestene til MTS og Sberbank.

Modellene er rettet mot talegjenkjenning, talesyntese og informasjonsbehandlingssystemer på naturlig språk og de kan være nyttige for forskere i utformingen av taledialogsystemer, transkripsjonsplattformer og automatiserte telefonsentre. I motsetning til tidligere tilgjengelige prosjekter, er de publiserte modellene ikke begrenset til engelsk anerkjennelse og dekker en rekke språk, aksenter og taleformer.

Endelig hvis du er interessert i å vite mer om det, kan du sjekke detaljene i følgende lenke.

LinuxAdictos

Mozilla Common Voice 7.0 kommer med mer enn 13,000 timers taledata

Om den nye versjonen av Common Voice 7.0

Legg igjen kommentaren Avbryt svar