மொஸில்லா காமன் வாய்ஸ் 7.0 13,000 மணிநேர குரல் டேட்டாவுடன் வருகிறது

சமீபத்தில் என்விடியா மற்றும் மொஸில்லா "மொஸில்லா காமன் வாய்ஸ் 7.0" இன் புதிய பதிப்பை வெளியிடுவதாக அறிவித்தது இது கூட்டு வம்சாவளியின் 13.000 மணி நேரத்திற்கும் அதிகமான குரல் தரவையும் மேலும் 16 மொழிகளைச் சேர்ப்பதையும் குறிக்கிறது கடைசி புதுப்பித்தலுடன் ஒப்பிடும்போது, அளவு பொருள் தொகுதி சேகரிப்பில் பேசுகிறது இது கிட்டத்தட்ட 50% அதிகரித்துள்ளது.

கூடுதலாக, ஆதரிக்கப்படும் மொழிகளின் எண்ணிக்கை 60 லிருந்து 76 ஆக அதிகரித்துள்ளதுபெலாரஷ்யன், கசாக், உஸ்பெக், பல்கேரியன், ஆர்மேனியன், அஜர்பைஜான் மற்றும் பாஷ்கிர் மொழிகளுக்கான முதல் ஆதரவு உட்பட.

பொதுவான குரலில் அறிமுகமில்லாதவர்களுக்கு, அவர்கள் இஇது ஒரு திறந்த தரவு குரல் தரவுத் தொகுப்பாகும் உலகின் மிகப்பெரிய மற்றும் குரல் தொழில்நுட்பத்தை ஜனநாயகப்படுத்துவதற்காக வடிவமைக்கப்பட்டுள்ளது. இது ஆராய்ச்சியாளர்கள், கல்வியாளர்கள் மற்றும் டெவலப்பர்களால் பயன்படுத்தப்படுகிறது உலகம் முழுவதும் இருந்து.

ஊழியர்கள் தங்கள் சொந்த சமூகங்களை குரல் தரவை நன்கொடையாகத் திரட்டுகின்றனர் MCV இன் பொது தரவுத்தளத்திற்கு, குரல்-இயக்கப்பட்ட தொழில்நுட்பத்தை பயிற்சி செய்ய எவரும் பயன்படுத்தலாம். என்விடியா ஒத்துழைப்பின் ஒரு பகுதியாக சிமொஸில்லா பொதுவான குரலில், இதில் பயிற்சி பெற்ற மாதிரிகள் மற்றும் பிற பொது தரவுத் தொகுப்புகள் இலவசமாகக் கிடைக்கின்றன என்விடியா நெமோ என்ற திறந்த மூல கருவித்தொகுப்பு வழியாக.

திட்டம் குரல் வார்ப்புருக்கள் ஒரு தரவுத்தளத்தை சேகரிக்க கூட்டு வேலைகளை ஏற்பாடு செய்வதை நோக்கமாகக் கொண்டுள்ளது, அனைத்து விதமான குரல்களையும் பேசும் முறைகளையும் கணக்கில் எடுத்துக்கொள்வது. மனித பேச்சின் பொதுவான சொற்றொடர்களின் வெவ்வேறு உச்சரிப்புகளின் பதிவுகளுடன் கூடிய திரட்டப்பட்ட தரவுத்தளம் இயந்திர கற்றல் அமைப்புகள் மற்றும் ஆராய்ச்சி திட்டங்களில் கட்டுப்பாடுகள் இல்லாமல் பயன்படுத்தப்படலாம்.

வோஸ்க் தொடர்ச்சியான பேச்சு அங்கீகார நூலகத்தின் ஆசிரியரின் கூற்றுப்படி, பொதுவான குரல் தொகுப்பின் குறைபாடுகள் குரல் பொருளின் ஒரு பக்கமாகும் (20 மற்றும் 30 வயதுடைய ஆண்களின் ஆதிக்கம் மற்றும் பெண்கள், குழந்தைகளின் குரலுடன் பொருள் பற்றாக்குறை மற்றும் முதியவர்கள்), சொல்லகராதி மாறுபாடு இல்லாமை (அதே சொற்றொடர்களின் மறுபடியும்) மற்றும் எம்பி 3 பதிவுகளின் விநியோகம் சிதைவுக்கு வாய்ப்புள்ளது.

பொதுவான குரல் 7.0 இன் புதிய பதிப்பு பற்றி

இந்த புதிய பதிப்பில் 75 ஆயிரத்துக்கும் மேற்பட்டோர் பங்கேற்றனர் ஆங்கிலத்தில் பொருட்களைத் தயாரிப்பதில், 2637 மணிநேர உறுதிப்படுத்தப்பட்ட பேச்சைக் கட்டளையிடுகிறது (66 ஆயிரம் பங்கேற்பாளர்கள் மற்றும் 1686 மணிநேரம் இருந்தனர்).

நாங்கள் ஆரம்பத்தில் குறிப்பிட்டது போல், இந்த புதிய பதிப்பு 16 புதிய மொழிகளை அறிமுகப்படுத்துகிறது மொத்தம் 76 மொழிகளுக்கான பொதுவான குரல் தரவுத்தொகுப்பில், அதில் முதல் ஐந்து மொழிகளில் ஆங்கிலம் (2.630 மணிநேரம்), கிண்ணியா (2.260), ஜெர்மன் (1.040), கட்டலான் (920) மற்றும் எஸ்பெராண்டோ (840).

தாய்லாந்து மொழியில் அதிக சதவீதம் அதிகரித்துள்ளது (கிட்டத்தட்ட 20 மடங்கு வளர்ச்சி, 12 மணிநேரத்திலிருந்து 250 மணிநேரம் வரை), லுகந்தா (9 மடங்கு வளர்ச்சி, 8 மணிநேரத்திலிருந்து 80 மணிநேரம் வரை), எஸ்பெராண்டோ (7 மடங்கு முதல் 100 மணிநேரம் வரை 840 மடங்குக்கு மேல் வளர்ச்சி) மற்றும் தமிழ் (8x க்கும் அதிகமான வளர்ச்சி, 24 மணிநேரத்திலிருந்து 220 மணிநேரம் வரை). ஆர்வமூட்டும், ஒட்டுமொத்த தரவுகளின் அடிப்படையில் ருவாண்டா இரண்டாவது இடத்தில் உள்ளது, இதற்காக 2260 மணி நேரம் சேகரிக்கப்பட்டது. அவர்களைத் தொடர்ந்து ஜெர்மன் (1040), கட்டலான் (920) மற்றும் எஸ்பெராண்டோ (840) உள்ளன. தரவுத்தொகுப்பு இப்போது 182,000 க்கும் மேற்பட்ட தனித்துவமான குரல்களைக் கொண்டுள்ளது, வரி செலுத்துவோர் சமூகத்தில் ஆறு மாதங்களில் 25% வளர்ச்சி.

திட்டத்தில் அவர்கள் பங்கேற்பதன் ஒரு பகுதியாக, குறிப்பிடப்பட்டுள்ளது. இயந்திர கற்றல் அமைப்புகளுக்கு NVIDIA பயன்படுத்த தயாராக பயிற்சி பெற்ற மாதிரிகளை தயார் செய்துள்ளது சேகரிக்கப்பட்ட தரவின் அடிப்படையில் (PyTorch உடன் இணக்கமானது). மாதிரிகள் ஒரு இலவச மற்றும் திறந்த NVIDIA NeMo கருவியின் ஒரு பகுதியாக விநியோகிக்கப்படுகின்றன, உதாரணமாக, ஏற்கனவே MTS மற்றும் Sberbank இன் தானியங்கி குரல் சேவைகளில் ஏற்கனவே பயன்படுத்தப்படுகிறது.

மாதிரிகள் உள்ளன பேச்சு அங்கீகாரம், பேச்சு தொகுப்பு மற்றும் இயற்கை மொழியில் தகவல் செயலாக்க அமைப்புகள் ஆகியவற்றை நோக்கமாகக் கொண்டது அவை குரல் உரையாடல் அமைப்புகள், டிரான்ஸ்கிரிப்ஷன் தளங்கள் மற்றும் தானியங்கி அழைப்பு மையங்களின் வடிவமைப்பில் ஆராய்ச்சியாளர்களுக்கு பயனுள்ளதாக இருக்கும். முன்னர் கிடைத்த திட்டங்களைப் போலல்லாமல், வெளியிடப்பட்ட மாதிரிகள் ஆங்கில அங்கீகாரத்திற்கு மட்டுப்படுத்தப்படவில்லை மற்றும் பல்வேறு மொழிகள், உச்சரிப்புகள் மற்றும் பேச்சு வடிவங்களை உள்ளடக்கியது.

இறுதியாக நீங்கள் அதைப் பற்றி மேலும் அறிய ஆர்வமாக இருந்தால், நீங்கள் விவரங்களை சரிபார்க்கலாம் பின்வரும் இணைப்பு.


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுகளுக்குப் பொறுப்பு: AB இன்டர்நெட் நெட்வொர்க்ஸ் 2008 SL
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.