Mozilla Common Voice 7.0 arrive avec plus de 13,000 XNUMX heures de données vocales

Récemment NVIDIA et Mozilla ont annoncé la sortie de la nouvelle version de "Mozilla Common Voice 7.0" ce qui représente plus de 13.000 16 heures de données vocales d'origine collective et l'ajout de XNUMX langues supplémentaires et que par rapport à la dernière mise à jour, la taille du volume de matière parler dans la collection il a augmenté de près de 50 % de plus.

En outre, le nombre de langues prises en charge est passé de 60 à 76, y compris un soutien supplémentaire pour les langues biélorusse, kazakh, ouzbek, bulgare, arménien, azerbaïdjanais et bachkir pour la première fois.

Pour ceux qui ne connaissent pas Common Voice, ils doivent savoir que eIl s'agit d'un ensemble de données vocales open data plus grand au monde et est conçu pour démocratiser la technologie vocale. Il est utilisé par les chercheurs, les universitaires et les développeurs dans le monde entier.

Les employés mobilisent leurs propres communautés pour faire don de données vocales à la base de données publique de MCV, que n'importe qui peut utiliser pour s'entraîner à la technologie vocale. Dans le cadre de la collaboration NVIDIA csur Mozilla Common Voice, les modèles formés à cet ensemble de données et à d'autres sont disponibles gratuitement via une boîte à outils open source appelée NVIDIA NeMo.

Le projet vise à organiser un travail commun pour accumuler une base de données de modèles vocaux, en tenant compte de toute la variété des voix et des manières de parler. La base de données accumulée avec des enregistrements de différentes prononciations de phrases typiques de la parole humaine peut être utilisée sans restrictions dans les systèmes d'apprentissage automatique et dans les projets de recherche.

Selon l'auteur de la bibliothèque de reconnaissance vocale continue Vosk, les défauts de l'ensemble Common Voice sont l'unilatéralité du matériel vocal (la prédominance des hommes dans la vingtaine et la trentaine et le manque de matériel avec la voix des femmes, des enfants et personnes âgées), le manque de variabilité du vocabulaire (répétition des mêmes phrases) et la diffusion d'enregistrements MP20 sujets à la distorsion.

À propos de la nouvelle version de Common Voice 7.0

Dans cette nouvelle version plus de 75 XNUMX personnes ont participé dans la préparation de documents en anglais, dictant 2637 66 heures de discours confirmé (il y avait 1686 XNUMX participants et XNUMX XNUMX heures).

Aussi comme nous l'avons mentionné au début, cette nouvelle version introduit 16 nouvelles langues dans l'ensemble de données Common Voice pour un total de 76 langues, dont les cinq premières langues par heures totales sont l'anglais (2.630 2.260 heures), le kinyarwanda (1.040 920), l'allemand (840 XNUMX), le catalan (XNUMX) et l'espéranto (XNUMX).

Les langues qui ont le plus augmenté en pourcentage sont le thaï (croissance presque 20 fois, de 12 heures à 250 heures), luganda (croissance 9 fois, de 8 heures à 80 heures), espéranto (croissance de plus de 7 fois, de 100 heures à 840 heures) et tamoul (croissance de plus de 8x, de 24 heures à 220 heures). Avec curiosité, Le Rwanda se classe deuxième en termes de données cumulées, pour laquelle 2260 1040 heures ont été collectées. Ils sont suivis de l'allemand (920), du catalan (840) et de l'espéranto (182,000). L'ensemble de données comprend désormais plus de 25 XNUMX voix uniques, soit une croissance de XNUMX % de la communauté des contribuables en seulement six mois.

Il est également mentionné que dans le cadre de leur participation au projet, NVIDIA a préparé des modèles entraînés prêts à l'emploi pour les systèmes d'apprentissage automatique basé sur les données collectées (compatible avec PyTorch). Les modèles sont distribués dans le cadre d'un outil NVIDIA NeMo gratuit et ouvert, qui, par exemple, est déjà utilisé dans les services vocaux automatisés de MTS et Sberbank.

Les modèles sont destiné aux systèmes de reconnaissance vocale, de synthèse vocale et de traitement de l'information en langage naturel et ils peuvent être utiles aux chercheurs dans la conception de systèmes de dialogue vocal, de plates-formes de transcription et de centres d'appels automatisés. Contrairement aux projets précédemment disponibles, les modèles publiés ne se limitent pas à la reconnaissance de l'anglais et couvrent une variété de langues, d'accents et de formes de discours.

Enfin si vous souhaitez en savoir plus, vous pouvez vérifier les détails dans le lien suivant


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.