Mozilla Common Voice 7.0 přichází s více než 13,000 XNUMX hodin hlasových dat

Nedávno NVIDIA a Mozilla oznámily vydání nové verze „Mozilla Common Voice 7.0“ což představuje více než 13.000 16 hodin hlasových dat kolektivního původu a přidání dalších XNUMX jazyků a dalších ve srovnání s poslední aktualizací, velikost objem materiálu mluvení ve sbírce zvýšil se téměř o 50% více.

Navíc, počet podporovaných jazyků se zvýšil ze 60 na 76, včetně první podpory pro běloruský, kazašský, uzbecký, bulharský, arménský, ázerbájdžánský a baškirský jazyk poprvé.

Pro ty, kteří neznají Common Voice, by měli vědět, že napřToto je sada hlasových dat s otevřenými daty největší na světě a je navržen tak, aby demokratizoval hlasovou technologii. Používají jej výzkumníci, akademici a vývojáři po celém světě.

Zaměstnanci mobilizují své vlastní komunity, aby darovaly hlasová data do veřejné databáze MCV, kterou může kdokoli použít k trénování hlasové technologie. V rámci spolupráce NVIDIA cna Mozilla Common Voice, modely vyškolené v této a dalších veřejných sadách dat jsou k dispozici zdarma prostřednictvím open source sady nástrojů s názvem NVIDIA NeMo.

El Proyecto si klade za cíl zorganizovat společnou práci na akumulaci databáze hlasových šablons přihlédnutím k různorodosti hlasů a způsobů řeči. Nahromaděnou databázi se záznamy různých výslovností frází typických pro lidskou řeč lze bez omezení používat v systémech strojového učení a ve výzkumných projektech.

Podle autora knihovny Vosk pro kontinuální rozpoznávání řeči jsou nedostatky sady Common Voice jednostrannost vokálního materiálu (převaha mužů ve 20. a 30. letech a nedostatek materiálu s hlasem žen, dětí a starší), nedostatek variability slovní zásoby (opakování stejných frází) a distribuce nahrávek MP3 náchylných ke zkreslení.

O nové verzi Common Voice 7.0

V této nové verzi zúčastnilo více než 75 tisíc lidí při přípravě materiálů v angličtině diktujících 2637 66 hodin potvrzené řeči (účastníků bylo 1686 tisíc a XNUMX XNUMX hodin).

Také, jak jsme zmínili na začátku, tato nová verze představuje 16 nových jazyků do datové sady Common Voice pro celkem 76 jazyků, z nichž pět nejlepších jazyků podle celkového počtu hodin je angličtina (2.630 2.260 hodin), Kinyarwanda (1.040 920), němčina (840 XNUMX), katalánština (XNUMX) a esperanto (XNUMX).

Nejvíce procentuálně vzrostly jazyky thajština (téměř 20násobný růst, od 12 hodin do 250 hodin), luganda (9násobný růst, od 8 hodin do 80 hodin), esperanto (růst více než 7krát, ze 100 hodin na 840 hodin) a Tamil (růst více než 8x, z 24 hodin na 220 hodin). Zvědavě, Rwanda je na druhém místě, pokud jde o kumulativní data, pro které bylo shromážděno 2260 hodin. Za nimi následují němčina (1040), katalánština (920) a esperanto (840). Datová sada nyní obsahuje více než 182,000 25 unikátních hlasů, což představuje XNUMX% nárůst v komunitě daňových poplatníků za pouhých šest měsíců.

Rovněž se uvádí, že v rámci své účasti na projektu NVIDIA připravila připravené k použití vyškolené modely pro systémy strojového učení na základě shromážděných dat (kompatibilní s PyTorch). Modely jsou distribuovány jako součást bezplatného a otevřeného nástroje NVIDIA NeMo, který se například již používá v automatizovaných hlasových službách MTS a Sberbank.

Modely jsou zaměřené na rozpoznávání řeči, syntézu řeči a systémy zpracování informací v přirozeném jazyce a mohou být užitečné pro výzkumníky při návrhu systémů hlasových dialogů, přepisových platforem a automatizovaných call center. Na rozdíl od dříve dostupných projektů se publikované modely neomezují pouze na rozpoznávání angličtiny a pokrývají různé jazyky, akcenty a formy řeči.

Konečně pokud máte zájem o tom vědět více, můžete zkontrolovat podrobnosti v následující odkaz.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Za data odpovídá: AB Internet Networks 2008 SL
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.