Mozilla Common Voice 7.0 ta isa tare da fiye da sa'o'i 13,000 na bayanan murya

Kwanan nan NVIDIA da Mozilla sun ba da sanarwar sakin sabon sigar "Mozilla Common Voice 7.0" wanda ke wakiltar sama da awanni 13.000 na bayanan murya na asalin haɗin gwiwa da ƙari wasu harsuna 16 da wancan idan aka kwatanta da sabuntawa ta ƙarshe, girman ta ƙarar abu magana a cikin tarin ya karu da kusan 50% fiye.

Har ila yau, adadin harsunan da aka tallafa sun karu daga 60 zuwa 76, gami da ƙarin tallafi don yaren Belarushiyanci, Kazakh, Uzbek, Bulgarian, Armenian, Azerbaijani, da Bashkir a karon farko.

Ga wadanda ba su san Muryar gama gari ba, ya kamata su san cewa eWannan saitin bayanan muryar data bude ne mafi girma a duniya kuma an ƙera shi don demokraɗiyya fasahar murya. Masu bincike, masana ilimi da masu haɓakawa suna amfani da shi daga ko'ina cikin duniya.

Ma'aikata suna tattara al'ummomin su don ba da gudummawar bayanan murya zuwa rumbun bayanan jama'a na MCV, wanda kowa zai iya amfani da shi don horar da fasahar kunna murya. A matsayin wani ɓangare na haɗin gwiwar NVIDIA cakan Muryar Jama'a ta Mozilla, samfuran da aka horar da su a cikin wannan da sauran bayanan bayanan jama'a ana samun su kyauta ta hanyar kayan aikin buɗe tushen da ake kira NVIDIA NeMo.

Wannan aikin da nufin tsara aikin haɗin gwiwa don tara bayanai na samfuran murya, yin la’akari da duk ire -iren muryoyi da hanyoyin magana. Tarin bayanan da aka tattara tare da rikodin furta kalamai daban -daban na jumlolin da suka saba da maganganun ɗan adam ana iya amfani da su ba tare da ƙuntatawa a cikin tsarin koyon injin da ayyukan bincike ba.

A cewar marubucin ɗakin karatu na ci gaba da magana na Vosk, gazawar sautin Muryar gama gari shine gefe ɗaya na kayan murya (fifikon maza a cikin shekarun 20s da 30s da rashin kayan aiki tare da muryar mata, yara da tsofaffi), rashin ƙamus na ƙamus (maimaita jumla iri ɗaya) da rarraba rakodin MP3 da ke haifar da murdiya.

Game da sabon sigar Common Voice 7.0

A cikin wannan sabon sigar sama da mutane dubu 75 suka halarci a cikin shirye -shiryen kayan a cikin Ingilishi, yana bayyana awa 2637 na maganganun da aka tabbatar (akwai mahalarta dubu 66 da sa'o'i 1686).

Hakanan kamar yadda muka ambata a farkon, wannan sabon sigar yana gabatar da sabbin harsuna 16 a cikin bayanan Muryar gama gari don jimlar yaruka 76, wanda manyan harsuna biyar na jimlar sa'o'i Ingilishi ne (sa'o'i 2.630), Kinyarwanda (2.260), Jamusanci (1.040), Catalan (920) da Esperanto (840).

Harsunan da suka fi ƙaruwa cikin kashi shine Thai (kusan ci gaban ninki 20, daga awanni 12 zuwa awanni 250), luganda (girma 9, daga awanni 8 zuwa awanni 80), Esperanto (haɓaka fiye da sau 7, daga awanni 100 zuwa awanni 840) da Tamil (haɓaka fiye da 8x, daga awanni 24 zuwa awanni 220). Abin mamaki, Rwanda tana matsayi na biyu wajen yawan bayanai, wanda aka tattara awanni 2260. Bayan su akwai Jamusanci (1040), Catalan (920) da Esperanto (840). Tsarin bayanai yanzu ya ƙunshi muryoyi sama da 182,000, haɓaka 25% a cikin masu biyan haraji a cikin watanni shida kacal.

An kuma ambaci cewa a matsayin wani bangare na shiga cikin aikin, NVIDIA ta shirya shirye-shiryen horar da shirye-shirye don amfani don tsarin koyan injin dangane da bayanan da aka tattara (wanda ya dace da PyTorch). An rarraba samfuran azaman wani ɓangare na kayan aikin NVIDIA NeMo kyauta da buɗewa, wanda, alal misali, an riga an yi amfani da shi a cikin sabis na murya na atomatik na MTS da Sberbank.

Samfuran sune da nufin gane magana, haɗa magana da tsarin sarrafa bayanai a cikin yaren halitta kuma za su iya zama masu amfani ga masu bincike a cikin ƙirar tsarin tattaunawar murya, dandamali na fassarar bayanai, da cibiyoyin kira na atomatik. Ba kamar ayyukan da ake samu a baya ba, samfuran da aka buga ba su iyakance ga fitowar Ingilishi ba kuma yana rufe harsuna iri -iri, lafazi da salon magana.

Finalmente idan kuna sha'awar ƙarin sani game da shi, zaku iya bincika cikakkun bayanai a cikin bin hanyar haɗi.


Bar tsokaci

Your email address ba za a buga. Bukata filayen suna alama da *

*

*

  1. Alhakin bayanai: AB Internet Networks 2008 SL
  2. Manufar bayanan: Sarrafa SPAM, sarrafa sharhi.
  3. Halacci: Yarda da yarda
  4. Sadarwar bayanan: Ba za a sanar da wasu bayanan ga wasu kamfanoni ba sai ta hanyar wajibcin doka.
  5. Ajiye bayanai: Bayanin yanar gizo wanda Occentus Networks (EU) suka dauki nauyi
  6. Hakkoki: A kowane lokaci zaka iyakance, dawo da share bayanan ka.