Mozilla Common Voice 7.0 带来超过 13,000 小时的语音数据

最近 NVIDIA 和 Mozilla 宣布发布新版本“Mozilla Common Voice 7.0” 这代表了超过 13.000 小时的集体来源语音数据以及另外 16 种语言的添加以及 与上次更新相比, 的大小 材料体积 在集合中说话 它增加了近 50%。

另外, 支持的语言数量从 60 种增加到 76 种,包括首次额外支持白俄罗斯语、哈萨克语、乌兹别克语、保加利亚语、亚美尼亚语、阿塞拜疆语和巴什基尔语。

对于那些不熟悉 Common Voice 的人,他们应该知道 e这是一个开放数据语音数据集 世界上最大的,旨在使语音技术民主化。 它被研究人员、学者和开发人员使用 世界各地。

员工动员所在社区捐赠语音数据 到 MCV 的公共数据库,任何人都可以使用它来训练语音技术。 作为 NVIDIA 合作的一部分 c在 Mozilla Common Voice 上, 在这个和其他公共数据集中训练的模型可以免费获得 通过一个名为 NVIDIA NeMo 的开源工具包。

萨尔瓦多PROYECTO 旨在组织联合工作以积累语音模板数据库,考虑到各种不同的声音和说话方式。 具有人类语音典型短语不同发音记录的累积数据库可以在机器学习系统和研究项目中不受限制地使用。

根据 Vosk 连续语音识别库作者的说法,Common Voice 集的缺点是人声素材的片面性(20 多岁和 30 多岁的男性占优势,缺乏女性、儿童声音的素材)和老年人)、缺乏词汇可变性(相同短语的重复)以及 MP3 录音的分布容易失真。

关于新版Common Voice 7.0

在这个新版本中 超过 75 人参与 在准备英文材料方面,口授确认演讲2637小时(参加人数66万,1686小时)。

同样正如我们开头提到的, 这个新版本引入了 16 种新语言 进入到共 76 种语言的 Common Voice 数据集,其中按总小时数排名前五位的语言是英语(2.630 小时)、近卢旺达语(2.260 小时)、德语(1.040 小时)、加泰罗尼亚语(920 小时)和世界语(840 小时)。

百分比增长最多的语言是泰语 (增长近20倍,从12小时到250小时),luganda(增长9倍,从8小时到80小时), 世界语 (增长7倍以上,从100小时到840小时) 和泰米尔语 (增长超过 8 倍,从 24 小时到 220 小时)。 奇怪的是, 卢旺达累计数据排名第二,为此收集了 2260 小时。 紧随其后的是德语 (1040)、加泰罗尼亚语 (920) 和世界语 (840)。 该数据集现在拥有超过 182,000 个独特的声音,在短短六个月内,纳税人社区增长了 25%。

还提到,作为他们参与该项目的一部分, NVIDIA 为机器学习系统准备了现成的训练模型 基于收集的数据(与 PyTorch 兼容)。 这些模型作为免费和开放的 NVIDIA NeMo 工具的一部分进行分发,例如,该工具已用于 MTS 和 Sberbank 的自动语音服务。

模型是 针对自然语言的语音识别、语音合成和信息处理系统 它们对设计语音对话系统、转录平台和自动呼叫中心的研究人员很有用。 与以前可用的项目不同,已发布的模型不仅限于英语识别,还涵盖各种语言、口音和语音形式。

最后 如果您有兴趣了解更多有关它的信息,您可以在中查看详细信息 以下链接。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责资料:AB Internet Networks 2008 SL
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。