Mozilla Common Voice 7.0 поставляется с более чем 13,000 XNUMX часов голосовых данных

Недавно NVIDIA и Mozilla объявили о выпуске новой версии «Mozilla Common Voice 7.0» что представляет собой более 13.000 часов голосовых данных коллективного происхождения с добавлением еще 16 языков и по сравнению с последним обновлением, размер объем материала говоря в коллекции он увеличился почти на 50%.

Кроме того, количество поддерживаемых языков увеличено с 60 до 76, включая дополнительную поддержку белорусского, казахского, узбекского, болгарского, армянского, азербайджанского и башкирского языков впервые.

Тем, кто не знаком с Common Voice, следует знать, что eЭто набор голосовых данных с открытыми данными крупнейшая в мире и предназначена для демократизации голосовых технологий. Он используется исследователями, учеными и разработчиками. во всем мире.

Сотрудники мобилизуют свои сообщества для передачи голосовых данных в общедоступную базу данных MCV, которую каждый может использовать для обучения голосовым технологиям. В рамках сотрудничества NVIDIA cна Mozilla Common Voice, модели, обученные на этом и других общедоступных наборах данных, доступны бесплатно с помощью инструментария с открытым исходным кодом под названием NVIDIA NeMo.

В рамках проекта стремится организовать совместную работу по накоплению базы голосовых шаблоновс учетом всего разнообразия голосов и способов говорения. Накопленная база данных с записями о различном произношении фраз, характерных для человеческой речи, может без ограничений использоваться в системах машинного обучения и в исследовательских проектах.

По словам автора библиотеки распознавания слитной речи Vosk, недостатками набора Common Voice является односторонность вокального материала (преобладание мужчин в возрасте от 20 до 30 лет и отсутствие материала с голосом женщин, детей и пожилые люди), отсутствие вариативности словарного запаса (повторение одних и тех же фраз) и распространение записей MP3, подверженных искажениям.

О новой версии Common Voice 7.0

В этой новой версии участвовало более 75 тысяч человек при подготовке материалов на английском языке, продиктовав 2637 часов подтвержденного выступления (было 66 тысяч участников и 1686 часов).

Также, как мы упоминали в начале, эта новая версия представляет 16 новых языков в набор данных Common Voice для 76 языков, из которых пятью лидирующими языками по общему количеству часов являются английский (2.630 часов), киньяруанда (2.260), немецкий (1.040), каталанский (920) и эсперанто (840).

Языки, процент которых увеличился больше всего, - это тайский. (почти 20-кратный рост, с 12 часов до 250 часов), луганда (9-кратный рост, с 8 часов до 80 часов), эсперанто (рост более чем в 7 раз, со 100 часов до 840 часов) и тамильский (рост более 8 раз, с 24 часов до 220 часов). Любопытно, Руанда занимает второе место по совокупным данным, за которое было собрано 2260 часов. За ними следуют немецкий (1040), каталонский (920) и эсперанто (840). Набор данных теперь включает более 182,000 25 уникальных голосов, что на XNUMX% выросло в сообществе налогоплательщиков всего за шесть месяцев.

Также упоминается, что в рамках их участия в проекте, NVIDIA подготовила готовые обученные модели для систем машинного обучения на основе собранных данных (совместимо с PyTorch). Модели распространяются в составе бесплатного и открытого инструмента NVIDIA NeMo, который, например, уже используется в автоматизированных голосовых сервисах МТС и Сбербанка.

Модели направленных на распознавание речи, синтез речи и системы обработки информации на естественном языке и они могут быть полезны исследователям при разработке систем голосового диалога, платформ транскрипции и автоматизированных центров обработки вызовов. В отличие от ранее доступных проектов, опубликованные модели не ограничиваются распознаванием английского языка и охватывают множество языков, акцентов и форм речи.

В конце концов если вам интересно узнать об этом больше, вы можете проверить подробности в по следующей ссылке.


Будьте первым, чтобы комментировать

Оставьте свой комментарий

Ваш электронный адрес не будет опубликован. Обязательные для заполнения поля помечены *

*

*

  1. Ответственный за данные: AB Internet Networks 2008 SL
  2. Назначение данных: контроль спама, управление комментариями.
  3. Легитимация: ваше согласие
  4. Передача данных: данные не будут переданы третьим лицам, кроме как по закону.
  5. Хранение данных: база данных, размещенная в Occentus Networks (ЕС)
  6. Права: в любое время вы можете ограничить, восстановить и удалить свою информацию.