Dumarating ang Mozilla Common Voice 7.0 na may higit sa 13,000 na oras ng data ng boses

Kamakailan lamang Inihayag ng NVIDIA at Mozilla ang paglabas ng bagong bersyon ng "Mozilla Common Voice 7.0" na kumakatawan sa higit sa 13.000 na oras ng data ng boses na sama-samang pinagmulan at pagdaragdag ng isa pang 16 na wika at iyon kumpara sa huling pag-update, ang laki ng dami ng materyal nagsasalita sa koleksyon tumaas ito ng halos 50% pa.

Bukod dito, ang bilang ng mga sinusuportahang wika ay tumaas mula 60 hanggang 76, kabilang ang karagdagang suporta para sa mga wikang Belarusian, Kazakh, Uzbek, Bulgarian, Armenian, Azerbaijani, at Bashkir sa kauna-unahang pagkakataon.

Para sa mga hindi pamilyar sa Karaniwang Boses, dapat nilang malaman iyon eIto ay isang bukas na set ng data ng boses ng data pinakamalaki sa mundo at idinisenyo upang demokratisahin ang teknolohiyang boses. Ginagamit ito ng mga mananaliksik, akademiko at developer sa buong mundo.

Pinapakilos ng mga empleyado ang kanilang sariling mga komunidad upang magbigay ng data ng boses sa pampublikong database ng MCV, na maaaring magamit ng sinuman upang sanayin ang teknolohiyang pinagana ng boses. Bilang bahagi ng pakikipagtulungan ng NVIDIA csa Mozilla Common Voice, ang mga modelo na sinanay dito at iba pang mga hanay ng data ng publiko ay magagamit nang libre sa pamamagitan ng isang open source toolkit na tinatawag na NVIDIA NeMo.

Ang proyekto naglalayon na ayusin ang magkasanib na gawain upang makaipon ng isang database ng mga template ng boses, isinasaalang-alang ang lahat ng iba't ibang mga boses at paraan ng pagsasalita. Ang naipon na database na may mga tala ng iba't ibang pagbigkas ng mga parirala na tipikal ng pagsasalita ng tao ay maaaring magamit nang walang mga paghihigpit sa mga sistema ng pag-aaral ng makina at sa mga proyekto sa pagsasaliksik.

Ayon sa may-akda ng tuloy-tuloy na library ng pagkilala sa pagsasalita ng Vosk, ang mga pagkukulang ng hanay ng Karaniwang Boses ay ang isang panig ng materyal na pang-tinig (ang pamamayani ng mga kalalakihan sa kanilang 20s at 30s at ang kakulangan ng materyal na may boses ng mga kababaihan, bata. at matatanda), ang kakulangan ng pagkakaiba-iba ng bokabularyo (pag-uulit ng parehong parirala) at ang pamamahagi ng mga recording ng MP3 na madaling kapitan ng pagbaluktot.

Tungkol sa bagong bersyon ng Common Voice 7.0

Sa bagong bersyon na ito higit sa 75 libong mga tao ang lumahok sa paghahanda ng mga materyales sa Ingles, pagdidikta ng 2637 oras ng kumpirmadong pagsasalita (mayroong 66 libong mga kalahok at 1686 na oras).

Tulad din ng nabanggit namin sa simula, ang bagong bersyon ay nagpapakilala ng 16 bagong mga wika sa dataset ng Common Voice para sa isang kabuuang 76 mga wika, kung saan ang nangungunang limang mga wika ayon sa kabuuang oras ay Ingles (2.630 oras), Kinyarwanda (2.260), German (1.040), Catalan (920) at Esperanto (840).

Ang mga wikang tumaas nang higit sa porsyento ay Thai (paglaki ng halos 20 beses, mula 12 oras hanggang 250 oras), luganda (paglago ng 9 beses, mula 8 oras hanggang 80 oras), esperanto (paglago ng higit sa 7 beses, mula 100 na oras hanggang 840 na oras) at Tamil (paglago ng higit sa 8x, mula 24 na oras hanggang 220 oras). Nagtataka, Pangalawa ang rwanda sa mga tuntunin ng pinagsama-samang data, kung saan nakolekta ang 2260 na oras. Sinundan sila ng German (1040), Catalan (920) at Esperanto (840). Nagtatampok ang dataset ngayon ng higit sa 182,000 natatanging mga tinig, isang 25% na paglago sa pamayanan ng nagbabayad ng buwis sa loob lamang ng anim na buwan.

Nabanggit din na bilang bahagi ng kanilang pakikilahok sa proyekto, Inihanda ng NVIDIA ang mga handa nang gamitin na may kasanayang mga modelo para sa mga sistema ng pag-aaral ng makina batay sa nakolektang data (katugma sa PyTorch). Ang mga modelo ay ipinamamahagi bilang bahagi ng isang libre at bukas na tool na NVIDIA NeMo, na, halimbawa, ay ginagamit na sa mga awtomatikong serbisyo sa boses ng MTS at Sberbank.

Ang mga modelo ay na naglalayong pagkilala sa pagsasalita, pagbubuo ng pagsasalita at mga sistema ng pagproseso ng impormasyon sa natural na wika at maaari silang maging kapaki-pakinabang sa mga mananaliksik sa disenyo ng mga sistema ng dayalogo ng boses, mga platform ng transcription, at mga awtomatikong call center. Hindi tulad ng dating magagamit na mga proyekto, ang na-publish na mga modelo ay hindi limitado sa pagkilala sa Ingles at sumasaklaw sa iba't ibang mga wika, accent, at anyo ng pagsasalita.

Sa wakas kung interesado kang malaman ang tungkol dito, maaari mong suriin ang mga detalye sa sumusunod na link.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: AB Internet Networks 2008 SL
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.