Mozilla Common Voice 7.0 arriba amb mes de 13,000 hores de dades de veu

fa poc NVIDIA i Mozilla van donar a conèixer l'alliberament de la nova versió de «Mozilla Common Voice 7.0» la qual representa més de 13.000 hores de dades de veu d'origen col·lectiu i l'addició d'altres 16 idiomes i que en comparació amb l'última actualització, La mida de l' volum de material de parla en la col·lecció ha augmentat en gairebé un 50% més.

A més, el nombre d'idiomes admesos ha augmentat de 60 a 76, Inclòs per primera vegada suport addicional per als idiomes bielorús, kazakh, uzbek, búlgar, armeni, azerbaidjanès i bashkir.

Per als qui desconeixen de Common Voice, han de saber que iAquest és un conjunt de dades de veu de dades obertes més gran de l'món i està dissenyat per a democratitzar la tecnologia de veu. És utilitzat per investigadors, acadèmics i desenvolupadors de tot el món.

Els col·laboradors mobilitzen les seves pròpies comunitats per donar dades de veu a la base de dades pública de MCV, que qualsevol pot utilitzar per entrenar tecnologia habilitada per veu. Com a part de la col·laboració de NVIDIA con Mozilla Common Voice, els models entrenats en aquest i altres conjunts de dades públiques estan disponibles de forma gratuïta a través d'un conjunt d'eines de codi obert anomenat NVIDIA NEMO.

El Projecte té com a objectiu organitzar el treball conjunt per acumular una base de dades de plantilles de veu, Tenint en compte tota la varietat de veus i formes de parlar. La base de dades acumulada amb registres de diferents pronunciacions de frases típiques de la parla humana es pot utilitzar sense restriccions en sistemes d'aprenentatge automàtic i en projectes d'investigació.

Segons l'autor de la biblioteca de reconeixement de veu continu de Vosk, les deficiències del conjunt Common Voice són la unilateralitat de l'material vocal (el predomini d'homes de 20 a 30 anys i la manca de material amb la veu de les dones, nens i gent gran), la manca de variabilitat de l'vocabulari (repetició de les mateixes frases) i la distribució d'enregistraments MP3 propenses a la distorsió.

Sobre la nova versió de Common Voice 7.0

En aquesta nova versió van participar més de 75 mil persones en la preparació de materials en anglès, dictant 2637 hores de discurs confirmat (van ser 66 participants i 1686 hores).

També com ja hem esmentat a l'inici, aquesta nova versió introdueix 16 nous idiomes a el conjunt de dades de Common Voice passant a un total de 76 idiomes, dels quals els cinc idiomes principals per hores totals són anglès (2.630 hores), kinyarwanda (2.260), alemany (1.040), català (920) i esperanto (840 ).

Els idiomes que més han augmentat en percentatge són el tailandès (Creixement de gairebé 20 vegades, de 12 hores a 250 hores), luganda (creixement de 9 vegades, de 8 hores a 80 hores), esperanto (Creixement de més de 7 vegades, de 100 hores a 840 hores) i Tamil (Creixement de més de 8x, de 24 hores a 220 hores). Curiosament, Rwanda ocupa el segon lloc en termes de dades acumulades, Per als quals es van recopilar 2260 hores. El segueixen l'alemany (1040), el català (920) i l'esperanto (840). El conjunt de dades ara presenta més de 182,000 veus úniques, un creixement de l'25% en la comunitat de contribuents en només sis mesos.

A més s'esmenta que com a part de la seva participació en el projecte, NVIDIA ha preparat models entrenats preparats per utilitzar per a sistemes d'aprenentatge automàtic basats en les dades recopilades (compatibles amb PyTorch). Els models es distribueixen com a part d'una eina gratuïta i oberta NVIDIA Nemo, que, per exemple, ja s'utilitza en els serveis de veu automatitzats de MTS i Sberbank.

Els models estan dirigits a el reconeixement de veu, la síntesi de veu i els sistemes de processament d'informació en llenguatge natural i poden ser útils per als investigadors en el disseny de sistemes de diàleg de veu, plataformes de transcripció i centres de trucades automatitzats. A diferència dels projectes disponibles anteriorment, els models publicats no es limiten a el reconeixement de l'anglès i cobreixen una varietat d'idiomes, accents i formes de parla.

Finalment si estàs interessat en poder conèixer més a l'respecte, Pots consultar els detalls al següent enllaç.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: AB Internet Networks 2008 SL
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.