Mozilla Common Voice 7.0 kommer med mer än 13,000 XNUMX timmar röstdata

nyligen NVIDIA och Mozilla tillkännagav lanseringen av den nya versionen av "Mozilla Common Voice 7.0" som representerar mer än 13.000 16 timmar röstdata av kollektivt ursprung och tillägg av ytterligare XNUMX språk och det jämfört med den senaste uppdateringen, storleken på materialvolym talar i samlingen den har ökat med nästan 50% mer.

Dessutom, antalet språk som stöds har ökat från 60 till 76, inklusive ytterligare stöd för vitryska, kazakiska, uzbekiska, bulgariska, armeniska, azerbajdzjanska och basjkiriska språken för första gången.

För dem som inte känner till Common Voice bör de veta att eDetta är en öppen data -röstdatauppsättning största i världen och är utformad för att demokratisera röstteknik. Det används av forskare, akademiker och utvecklare från hela världen.

Anställda mobiliserar sina egna samhällen för att donera röstdata till MCV: s offentliga databas, som alla kan använda för att träna röstaktiverad teknik. Som en del av NVIDIA c -samarbetetpå Mozilla Common Voice, modeller som utbildats i denna och andra offentliga datamängder är tillgängliga gratis via en verktygslåda med öppen källkod som heter NVIDIA NeMo.

Projektet syftar till att organisera gemensamt arbete med att samla en databas med röstmallarmed hänsyn till alla olika röster och sätt att tala. Den ackumulerade databasen med register över olika uttal av fraser som är typiska för mänskligt tal kan användas utan begränsningar i maskininlärningssystem och i forskningsprojekt.

Enligt författaren till Vosk bibliotek för kontinuerligt taligenkänning är bristerna i Common Voice-uppsättningen ensamheten i vokalmaterialet (mäns övervägande i 20- och 30-talen och bristen på material med röst från kvinnor, barn och äldre), bristen på variation i ordförråd (upprepning av samma fraser) och distribution av MP3 -inspelningar som är benägna att förvrängas.

Om den nya versionen av Common Voice 7.0

I den här nya versionen mer än 75 tusen människor deltog vid förberedelse av material på engelska, dikterande 2637 66 timmar bekräftat tal (det fanns 1686 tusen deltagare och XNUMX XNUMX timmar).

Som vi nämnde i början, denna nya version introducerar 16 nya språk i Common Voice -datauppsättningen för totalt 76 språk, varav de fem bästa språken efter totalt antal timmar är engelska (2.630 timmar), kinyarwanda (2.260), tyska (1.040 920), katalanska (840) och esperanto (XNUMX).

De språk som har ökat mest i procent är thailändska (nästan 20-faldig tillväxt, från 12 timmar till 250 timmar), luganda (9-faldig tillväxt, från 8 timmar till 80 timmar), esperanto (tillväxt mer än 7 gånger, från 100 timmar till 840 timmar) och tamil (tillväxt på mer än 8x, från 24 timmar till 220 timmar). Nyfiket, Rwanda ligger på andra plats när det gäller kumulativa data, för vilka 2260 timmar samlades in. De följs av tyska (1040), katalanska (920) och esperanto (840). Datauppsättningen innehåller nu över 182,000 25 unika röster, en tillväxt på XNUMX% i skattebetalarsamhället på bara sex månader.

Det nämns också att som en del av deras deltagande i projektet, NVIDIA har utarbetat färdiga färdiga modeller för maskininlärningssystem baserat på insamlad data (kompatibel med PyTorch). Modellerna distribueras som en del av ett gratis och öppet NVIDIA NeMo -verktyg, som till exempel redan används i de automatiska rösttjänsterna hos MTS och Sberbank.

Modellerna är syftar till taligenkänning, talsyntes och informationsbehandlingssystem i naturligt språk och de kan vara användbara för forskare i utformningen av röstdialogsystem, transkriptionsplattformar och automatiska callcenter. Till skillnad från tidigare tillgängliga projekt är de publicerade modellerna inte begränsade till engelskt erkännande och täcker en mängd olika språk, accenter och talformer.

Slutligen om du är intresserad av att veta mer om detkan du kontrollera detaljerna i följande länk.

LinuxAdictos

Mozilla Common Voice 7.0 kommer med mer än 13,000 XNUMX timmar röstdata

Om den nya versionen av Common Voice 7.0

Lämna din kommentar Avbryt svar