Mozilla Common Voice 7.0 arriva con oltre 13,000 ore di dati vocali

recentemente NVIDIA e Mozilla hanno annunciato il rilascio della nuova versione di "Mozilla Common Voice 7.0" che rappresenta più di 13.000 ore di dati vocali di origine collettiva e l'aggiunta di altre 16 lingue e che rispetto all'ultimo aggiornamento, la dimensione del volume materiale parlando nella raccolta è aumentato di quasi il 50% in più.

Inoltre, il numero di lingue supportate è aumentato da 60 a 76, compreso il supporto aggiuntivo per le lingue bielorussa, kazaka, uzbeka, bulgara, armena, azera e baschirica per la prima volta.

Per coloro che non hanno familiarità con Common Voice, dovrebbero sapere che eQuesto è un set di dati vocali open data più grande al mondo ed è progettato per democratizzare la tecnologia vocale. È utilizzato da ricercatori, accademici e sviluppatori in tutto il mondo.

I dipendenti mobilitano le proprie comunità per donare dati vocali al database pubblico di MCV, che chiunque può utilizzare per addestrare la tecnologia abilitata alla voce. Come parte della collaborazione NVIDIA csu Mozilla Common Voice, i modelli addestrati in questo e altri set di dati pubblici sono disponibili gratuitamente tramite un toolkit open source chiamato NVIDIA NeMo.

El proyecto mira a organizzare il lavoro congiunto per accumulare un database di modelli vocali, tenendo conto di tutta la varietà di voci e modi di parlare. Il database accumulato con registrazioni di diverse pronunce di frasi tipiche del linguaggio umano può essere utilizzato senza restrizioni nei sistemi di apprendimento automatico e nei progetti di ricerca.

Secondo l'autore della libreria di riconoscimento vocale continuo Vosk, le carenze del set Common Voice sono l'unilateralità del materiale vocale (la predominanza di uomini tra i 20 e i 30 anni e la mancanza di materiale con la voce di donne, bambini e anziani), la mancanza di variabilità del vocabolario (ripetizione delle stesse frasi) e la distribuzione di registrazioni MP3 soggette a distorsione.

Informazioni sulla nuova versione di Common Voice 7.0

In questa nuova versione hanno partecipato più di 75mila persone nella preparazione dei materiali in lingua inglese, dettando 2637 ore di discorso confermato (erano 66mila i partecipanti e 1686 ore).

Inoltre, come abbiamo detto all'inizio, questa nuova versione introduce 16 nuove lingue nel dataset Common Voice per un totale di 76 lingue, di cui le prime cinque lingue per ore totali sono inglese (2.630 ore), kinyarwanda (2.260), tedesco (1.040), catalano (920) ed esperanto (840).

Le lingue che sono aumentate di più in percentuale sono il tailandese (crescita quasi 20 volte, da 12 ore a 250 ore), luganda (crescita 9 volte, da 8 ore a 80 ore), esperanto (crescita di oltre 7 volte, da 100 ore a 840 ore) e Tamil (crescita di oltre 8 volte, da 24 ore a 220 ore). Curiosamente, Il Ruanda è al secondo posto in termini di dati cumulativi, per cui sono state raccolte 2260 ore. Seguono il tedesco (1040), il catalano (920) e l'esperanto (840). Il set di dati ora include oltre 182,000 voci uniche, una crescita del 25% nella comunità dei contribuenti in soli sei mesi.

Si ricorda inoltre che, nell'ambito della loro partecipazione al progetto, NVIDIA ha preparato modelli addestrati pronti per l'uso per i sistemi di apprendimento automatico in base ai dati raccolti (compatibile con PyTorch). I modelli sono distribuiti come parte di uno strumento NVIDIA NeMo gratuito e aperto, che, ad esempio, è già utilizzato nei servizi vocali automatizzati di MTS e Sberbank.

I modelli sono finalizzato al riconoscimento vocale, alla sintesi vocale e ai sistemi di elaborazione delle informazioni in linguaggio naturale e possono essere utili ai ricercatori nella progettazione di sistemi di dialogo vocale, piattaforme di trascrizione e call center automatizzati. A differenza dei progetti precedentemente disponibili, i modelli pubblicati non si limitano al riconoscimento dell'inglese e coprono una varietà di lingue, accenti e forme di discorso.

Infine se sei interessato a saperne di più, puoi controllare i dettagli nel file seguente link


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile del trattamento: AB Internet Networks 2008 SL
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.