Mozilla Common Voice 7.0 ajunge cu mai mult de 13,000 de ore de date vocale

recent NVIDIA și Mozilla au anunțat lansarea noii versiuni a „Mozilla Common Voice 7.0” ceea ce reprezintă mai mult de 13.000 de ore de date vocale de origine colectivă și adăugarea altor 16 limbi și asta comparativ cu ultima actualizare, dimensiunea volumul materialului vorbind în colecție a crescut cu aproape 50% mai mult.

În plus, numărul de limbi acceptate a crescut de la 60 la 76, inclusiv sprijin suplimentar pentru limbile bielorusă, kazahă, uzbekă, bulgară, armeană, azeră și bashir pentru prima dată.

Pentru cei care nu sunt familiarizați cu Common Voice, ar trebui să știe că eAcesta este un set de date vocale cu date deschise cel mai mare din lume și este conceput pentru a democratiza tehnologia vocală. Este folosit de cercetători, universitari și dezvoltatori din întreaga lume.

Angajații își mobilizează propriile comunități pentru a dona date vocale la baza de date publică a MCV, pe care oricine o poate folosi pentru a instrui tehnologia activată de voce. Ca parte a colaborării NVIDIA cpe Mozilla Common Voice, modelele instruite în acest și în alte seturi de date publice sunt disponibile gratuit printr-un set de instrumente open source numit NVIDIA NeMo.

Proiectul își propune să organizeze munca comună pentru a acumula o bază de date cu șabloane vocale, luând în considerare toată varietatea de voci și moduri de a vorbi. Baza de date acumulată cu înregistrări ale diferitelor pronunții de fraze tipice vorbirii umane poate fi utilizată fără restricții în sistemele de învățare automată și în proiectele de cercetare.

Potrivit autorului bibliotecii de recunoaștere a vorbirii continue Vosk, neajunsurile setului de voce comună sunt unilateralitatea materialului vocal (predominanța bărbaților în anii 20 și 30 și lipsa materialului cu vocea femeilor, a copiilor și vârstnici), lipsa variabilității vocabularului (repetarea acelorași fraze) și distribuția înregistrărilor MP3 predispuse la distorsiuni.

Despre noua versiune a Common Voice 7.0

În această nouă versiune au participat peste 75 de mii de persoane în pregătirea materialelor în limba engleză, dictând 2637 ore de vorbire confirmată (au fost 66 de mii de participanți și 1686 de ore).

De asemenea, așa cum am menționat la început, această nouă versiune introduce 16 limbi noi în setul de date Common Voice pentru un total de 76 de limbi, dintre care primele cinci limbi în total ore sunt engleza (2.630 ore), kinyarwanda (2.260), germană (1.040), catalană (920) și esperanto (840).

Limbile care au crescut cel mai mult în procente sunt thailandeze (creștere de aproape 20 de ori, de la 12 ore la 250 de ore), luganda (creștere de 9 ori, de la 8 ore la 80 de ore), esperanto (creștere de peste 7 ori, de la 100 ore la 840 ore) și tamilă (creștere de peste 8x, de la 24 de ore la 220 de ore). Cu interes, Rwanda ocupă locul doi în ceea ce privește datele cumulative, pentru care au fost colectate 2260 de ore. Acestea sunt urmate de germană (1040), catalană (920) și esperanto (840). Setul de date conține acum peste 182,000 de voci unice, o creștere de 25% în comunitatea contribuabililor în doar șase luni.

De asemenea, se menționează că, ca parte a participării lor la proiect, NVIDIA a pregătit modele pregătite gata de utilizare pentru sistemele de învățare automată pe baza datelor colectate (compatibil cu PyTorch). Modelele sunt distribuite ca parte a unui instrument NVIDIA NeMo gratuit și deschis, care, de exemplu, este deja utilizat în serviciile de voce automate ale MTS și Sberbank.

Modelele sunt vizează recunoașterea vorbirii, sinteza vorbirii și sisteme de procesare a informațiilor în limbaj natural și pot fi utile cercetătorilor în proiectarea de sisteme de dialog vocal, platforme de transcriere și centre de apel automatizate. Spre deosebire de proiectele disponibile anterior, modelele publicate nu se limitează la recunoașterea limbii engleze și acoperă o varietate de limbi, accente și forme de vorbire.

În cele din urmă dacă sunteți interesat să aflați mai multe despre asta, puteți verifica detaliile în următorul link.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: AB Internet Networks 2008 SL
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.