Mozilla Common Voice 7.0 має більше 13,000 XNUMX годин голосових даних

Останнім часом NVIDIA та Mozilla оголосили про вихід нової версії "Mozilla Common Voice 7.0" що представляє понад 13.000 16 годин голосових даних колективного походження та додавання ще XNUMX мов і таке порівняно з останнім оновленням, розмір обсяг матеріалу виступаючи у збірнику вона збільшилася майже на 50% більше.

Крім того, кількість підтримуваних мов зросла з 60 до 76, включаючи додаткову підтримку білоруської, казахської, узбецької, болгарської, вірменської, азербайджанської та башкирської мов вперше.

Для тих, хто не знайомий із Common Voice, вони повинні знати, що eЦе відкритий набір голосових даних найбільший у світі і призначений для демократизації голосових технологій. Він використовується дослідниками, науковцями та розробниками з усього світу.

Співробітники мобілізують власні громади для передачі голосових даних до публічної бази даних MCV, яку кожен може використовувати для навчання технологіям голосового зв'язку. В рамках співпраці з NVIDIA cна Mozilla Common Voice, моделі, навчені цьому та іншим загальнодоступним наборам даних, доступні безкоштовно за допомогою набору інструментів з відкритим кодом під назвою NVIDIA NeMo.

Проект має на меті організувати спільну роботу з накопичення бази даних голосових шаблонів, враховуючи все різноманіття голосів та способів висловлювання. Накопичену базу даних із записами різних вимов фраз, характерних для людського мовлення, можна без обмежень використовувати у системах машинного навчання та у дослідницьких проектах.

На думку автора бібліотеки безперервного розпізнавання мови «Воск», недоліками набору Common Voice є однобічність вокального матеріалу (переважання чоловіків у 20-30-х роках та відсутність матеріалу з голосом жінок, дітей та літні люди), відсутність варіативності словникового запасу (повторення одних і тих же фраз) та розповсюдження записів MP3, схильних до спотворень.

Про нову версію Common Voice 7.0

У цій новій версії участь взяли понад 75 тисяч осіб у підготовці матеріалів англійською мовою, що диктує 2637 годин підтвердженого виступу (було 66 тисяч учасників та 1686 годин).

Також, як ми згадували на початку, ця нова версія представляє 16 нових мов у набір даних Common Voice загалом для 76 мов, з яких п'ять найкращих мов за загальною кількістю годин - це англійська (2.630 годин), кінярванда (2.260), німецька (1.040), каталонська (920) та есперанто (840).

Мови, які найбільше зросли у відсотках, - тайська (майже 20-кратне зростання, від 12 годин до 250 годин), луганда (9-кратне зростання, від 8 годин до 80 годин), есперанто (зростання більш ніж у 7 разів, від 100 годин до 840 годин) та тамільською (зростання більш ніж у 8 разів, з 24 годин до 220 годин). Цікаво, Руанда посідає друге місце за сукупними даними, за який було зібрано 2260 годин. Далі йдуть німецька (1040), каталонська (920) та есперанто (840). Набір даних тепер містить понад 182,000 25 унікальних голосів, що зросло на XNUMX% у спільноті платників податків всього за півроку.

Також згадується, що в рамках їх участі в проекті, NVIDIA підготувала готові до використання навчені моделі для систем машинного навчання на основі зібраних даних (сумісні з PyTorch). Моделі поширюються як частина безкоштовного та відкритого інструменту NVIDIA NeMo, який, наприклад, уже використовується в автоматизованих голосових сервісах МТС та Ощадбанку.

Моделі такі спрямовані на розпізнавання мовлення, синтез мовлення та системи обробки інформації природною мовою і вони можуть бути корисними дослідникам при проектуванні систем голосового діалогу, платформ транскрипції та автоматизованих центрів дзвінків. На відміну від раніше доступних проектів, опубліковані моделі не обмежуються розпізнаванням англійської мови та охоплюють різноманітні мови, акценти та форми мовлення.

В кінці кінців якщо вам цікаво дізнатись більше про це, ви можете перевірити деталі в наступне посилання.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: AB Internet Networks 2008 SL
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.