Mozilla Common Voice 7.0 llega con mas de 13,000 horas de datos de voz

Hace poco NVIDIA y Mozilla dieron a conocer la liberación de la nueva versión de «Mozilla Common Voice 7.0» la cual representa más de 13.000 horas de datos de voz de origen colectivo y la adición de otros 16 idiomas y que en comparación con la última actualización, el tamaño del volumen de material de habla en la colección ha aumentado en casi un 50% más.

Además, el número de idiomas admitidos ha aumentado de 60 a 76, incluido por primera vez soporte adicional para los idiomas bielorruso, kazajo, uzbeko, búlgaro, armenio, azerbaiyano y bashkir.

Para quienes desconocen de Common Voice, deben saber que este es un conjunto de datos de voz de datos abiertos más grande del mundo y está diseñado para democratizar la tecnología de voz. Es utilizado por investigadores, académicos y desarrolladores de todo el mundo.

Los colaboradores movilizan sus propias comunidades para donar datos de voz a la base de datos pública de MCV, que cualquiera puede usar para entrenar tecnología habilitada por voz. Como parte de la colaboración de NVIDIA con Mozilla Common Voice, los modelos entrenados en este y otros conjuntos de datos públicos están disponibles de forma gratuita a través de un kit de herramientas de código abierto llamado NVIDIA NeMo.

El proyecto tiene como objetivo organizar el trabajo conjunto para acumular una base de datos de plantillas de voz, teniendo en cuenta toda la variedad de voces y formas de hablar. La base de datos acumulada con registros de diferentes pronunciaciones de frases típicas del habla humana se puede utilizar sin restricciones en sistemas de aprendizaje automático y en proyectos de investigación.

Según el autor de la biblioteca de reconocimiento de voz continuo de Vosk, las deficiencias del conjunto Common Voice son la unilateralidad del material vocal (el predominio de hombres de 20 a 30 años y la falta de material con la voz de las mujeres, niños y ancianos), la falta de variabilidad del vocabulario (repetición de las mismas frases) y la distribución de grabaciones MP3 propensas a la distorsión.

Sobre la nueva versión de Common Voice 7.0

En esta nueva versión participaron más de 75 mil personas en la preparación de materiales en inglés, dictando 2637 horas de discurso confirmado (fueron 66 mil participantes y 1686 horas).

Tambien como ya mencionamos al inicio, esta nueva versión introduce 16 nuevos idiomas al conjunto de datos de Common Voice pasando a un total de 76 idiomas, de los cuales los cinco idiomas principales por horas totales son inglés (2.630 horas), kinyarwanda (2.260), alemán (1.040), catalán (920) y esperanto (840).

Los idiomas que más han aumentado en porcentaje son el tailandés (crecimiento de casi 20 veces, de 12 horas a 250 horas), luganda (crecimiento de 9 veces, de 8 horas a 80 horas), esperanto (crecimiento de más de 7 veces, de 100 horas a 840 horas) y Tamil (crecimiento de más de 8x, de 24 horas a 220 horas). Curiosamente, Ruanda ocupa el segundo lugar en términos de datos acumulados, para los cuales se recopilaron 2260 horas. Le siguen el alemán (1040), el catalán (920) y el esperanto (840). El conjunto de datos ahora presenta más de 182,000 voces únicas, un crecimiento del 25% en la comunidad de contribuyentes en solo seis meses.

Además se menciona que como parte de su participación en el proyecto, NVIDIA ha preparado modelos entrenados listos para usar para sistemas de aprendizaje automático basados ​​en los datos recopilados (compatibles con PyTorch). Los modelos se distribuyen como parte de una herramienta gratuita y abierta NVIDIA NeMo, que, por ejemplo, ya se utiliza en los servicios de voz automatizados de MTS y Sberbank.

Los modelos están dirigidos al reconocimiento de voz, la síntesis de voz y los sistemas de procesamiento de información en lenguaje natural y pueden ser útiles para los investigadores en el diseño de sistemas de diálogo de voz, plataformas de transcripción y centros de llamadas automatizados. A diferencia de los proyectos disponibles anteriormente, los modelos publicados no se limitan al reconocimiento del inglés y cubren una variedad de idiomas, acentos y formas de habla.

Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.


El contenido del artículo se adhiere a nuestros principios de ética editorial. Para notificar un error pincha aquí.

Sé el primero en comentar

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: Miguel Ángel Gatón
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.