মোজিলা কমন ভয়েস 7.0 13,000 ঘন্টার বেশি ভয়েস ডেটা নিয়ে আসে

সম্প্রতি এনভিআইডিআইএ এবং মোজিলা "মোজিলা কমন ভয়েস 7.0" এর নতুন সংস্করণ প্রকাশের ঘোষণা দিয়েছে যা সম্মিলিত উৎপত্তির ১,13.000,০০০ ঘণ্টারও বেশি ভয়েস ডেটা এবং আরও ১ languages ​​টি ভাষার সংযোজনকে প্রতিনিধিত্ব করে শেষ আপডেটের তুলনায়, এর আকার উপাদান ভলিউম সংগ্রহে কথা বলা এটি প্রায় 50% বেশি বৃদ্ধি পেয়েছে।

উপরন্তু, সমর্থিত ভাষার সংখ্যা 60 থেকে বেড়ে 76 হয়েছেবেলারুশিয়ান, কাজাখ, উজবেক, বুলগেরিয়ান, আর্মেনিয়ান, আজারবাইজানি এবং বাশকির ভাষার জন্য প্রথমবারের মতো অতিরিক্ত সমর্থন সহ।

যারা সাধারণ কণ্ঠের সাথে অপরিচিত তাদের জন্য তাদের জানা উচিত যে ইএটি একটি ওপেন ডেটা ভয়েস ডেটা সেট বিশ্বের বৃহত্তম এবং ভয়েস প্রযুক্তিকে গণতান্ত্রিক করার জন্য ডিজাইন করা হয়েছে। এটি গবেষক, শিক্ষাবিদ এবং ডেভেলপাররা ব্যবহার করেন সারা বিশ্ব থেকে

কর্মচারীরা ভয়েস ডেটা দান করার জন্য তাদের নিজস্ব সম্প্রদায়কে একত্রিত করে MCV- এর পাবলিক ডাটাবেসে, যা কেউ ভয়েস-সক্ষম প্রযুক্তি প্রশিক্ষণের জন্য ব্যবহার করতে পারে। NVIDIA সহযোগিতার অংশ হিসেবে গমজিলা কমন ভয়েসে, এতে প্রশিক্ষিত মডেল এবং অন্যান্য পাবলিক ডেটা সেট বিনামূল্যে পাওয়া যায় NVIDIA NeMo নামে একটি ওপেন সোর্স টুলকিটের মাধ্যমে।

প্রকল্পটি ভয়েস টেমপ্লেটগুলির একটি ডাটাবেস জমা করার জন্য যৌথ কাজ সংগঠিত করার লক্ষ্য, সব ধরনের কণ্ঠস্বর এবং কথা বলার পদ্ধতি বিবেচনা করা। মানুষের বক্তৃতা সাধারণ বাক্যাংশের বিভিন্ন উচ্চারণের রেকর্ড সহ সঞ্চিত ডাটাবেস মেশিন লার্নিং সিস্টেম এবং গবেষণা প্রকল্পে সীমাবদ্ধতা ছাড়াই ব্যবহার করা যেতে পারে।

ভসক ক্রমাগত বক্তৃতা স্বীকৃতি লাইব্রেরির লেখকের মতে, কমন ভয়েস সেটের ত্রুটিগুলি হল কণ্ঠস্বর উপাদানের একতরফাতা (তাদের 20 এবং 30 এর দশকে পুরুষদের প্রাধান্য এবং মহিলাদের, শিশুদের কণ্ঠের সাথে উপাদানের অভাব এবং বয়স্কদের), শব্দভান্ডার পরিবর্তনশীলতার অভাব (একই বাক্যাংশের পুনরাবৃত্তি) এবং এমপি 3 রেকর্ডিংয়ের বিতরণ বিকৃতির প্রবণতা।

কমন ভয়েস 7.0 এর নতুন সংস্করণ সম্পর্কে

এই নতুন সংস্করণে 75 হাজারেরও বেশি মানুষ অংশগ্রহণ করেছিল ইংরেজিতে উপকরণ তৈরিতে, 2637 ঘণ্টা নিশ্চিত বক্তৃতা (সেখানে 66 হাজার অংশগ্রহণকারী এবং 1686 ঘন্টা ছিল)।

এছাড়াও আমরা যেমন শুরুতে উল্লেখ করেছি, এই নতুন সংস্করণে 16 টি নতুন ভাষা চালু করা হয়েছে কমন ভয়েস ডেটাসেটে মোট languages ​​টি ভাষার জন্য, যার মধ্যে সর্বোচ্চ পাঁচটি ভাষা মোট ঘণ্টা হল ইংরেজি (76 ঘন্টা), কিনিয়ারওয়ান্ডা (2.630), জার্মান (2.260), কাতালান (1.040) এবং এস্পেরান্তো (920)।

যেসব ভাষা সবচেয়ে বেশি শতাংশে বৃদ্ধি পেয়েছে তা হল থাই (প্রায় 20 গুণ বৃদ্ধি, 12 ঘন্টা থেকে 250 ঘন্টা পর্যন্ত), লুগান্ডা (9 গুণ বৃদ্ধি, 8 ঘন্টা থেকে 80 ঘন্টা), এস্পেরান্তো (7 ঘন্টার থেকে 100 ঘন্টার মধ্যে 840 গুণের বেশি বৃদ্ধি) এবং তামিল (8 ঘন্টা থেকে 24 ঘন্টা পর্যন্ত 220x এর বেশি বৃদ্ধি)। কৌতূহলবশত, ক্রমবর্ধমান তথ্যের ক্ষেত্রে রুয়ান্ডা দ্বিতীয় স্থানে রয়েছে, যার জন্য 2260 ঘন্টা সংগ্রহ করা হয়েছিল। তাদের পরে রয়েছে জার্মান (1040), কাতালান (920) এবং এস্পেরান্তো (840)। ডেটাসেটে এখন 182,000 এরও বেশি অনন্য কণ্ঠ রয়েছে, যা করদাতা সম্প্রদায়ের মাত্র ছয় মাসে 25% বৃদ্ধি পেয়েছে।

এটিও উল্লেখ করা হয়েছে যে প্রকল্পে তাদের অংশগ্রহণের অংশ হিসাবে, এনভিআইডিআইএ মেশিন লার্নিং সিস্টেমের জন্য ব্যবহারের জন্য প্রশিক্ষিত মডেল প্রস্তুত করেছে সংগৃহীত তথ্যের উপর ভিত্তি করে (PyTorch এর সাথে সামঞ্জস্যপূর্ণ)। মডেলগুলি একটি বিনামূল্যে এবং খোলা NVIDIA NeMo টুলের অংশ হিসাবে বিতরণ করা হয়, যা উদাহরণস্বরূপ, ইতিমধ্যে MTS এবং Sberbank এর স্বয়ংক্রিয় ভয়েস পরিষেবাগুলিতে ব্যবহৃত হয়।

মডেলগুলো হলো বক্তৃতার স্বীকৃতি, বক্তৃতা সংশ্লেষণ এবং প্রাকৃতিক ভাষায় তথ্য প্রক্রিয়াকরণ ব্যবস্থা এবং তারা ভয়েস ডায়ালগ সিস্টেম, ট্রান্সক্রিপশন প্ল্যাটফর্ম এবং স্বয়ংক্রিয় কল সেন্টারের নকশায় গবেষকদের জন্য উপকারী হতে পারে। পূর্বে উপলভ্য প্রকল্পগুলির বিপরীতে, প্রকাশিত মডেলগুলি ইংরেজি স্বীকৃতিতে সীমাবদ্ধ নয় এবং বিভিন্ন ভাষা, উচ্চারণ এবং বক্তৃতার ধরনগুলি অন্তর্ভুক্ত করে।

পরিশেষে আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন, আপনি বিশদে পরীক্ষা করতে পারেন নিম্নলিখিত লিঙ্ক.


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়ী: AB ইন্টারনেট নেটওয়ার্ক 2008 SL
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।