এনকোডেক, নতুন মেটা অডিও কোডেক

এনকোডেক

এনকোডেক হল একটি কোডেক যা প্রায় 10x কম্প্রেশন রেট সহ একটি নিউরাল নেটওয়ার্ক ব্যবহার করে ডিকোড করে

সম্প্রতি, মেটা (আগের ফেসবুক) EnCodec নামে এর নতুন অডিও কোডেক উন্মোচন করেছে, Que মেশিন লার্নিং কৌশল ব্যবহার করে মান হারানো ছাড়া কম্প্রেশন অনুপাত বৃদ্ধি.

নতুন পদ্ধতিটি অত্যাধুনিক আকার হ্রাস অর্জনের জন্য রিয়েল টাইমে অডিওকে সংকুচিত এবং ডিকম্প্রেস করতে পারে। কোডেক রিয়েল টাইমে উভয় স্ট্রিমিং অডিওর জন্য ব্যবহার করা যেতে পারে ফাইলগুলিতে পরবর্তী স্টোরেজের জন্য এনকোডিংয়ের জন্য।

আজ, আমরা এআই-চালিত অডিও হাইপার-কম্প্রেশনের ক্ষেত্রে আমাদের ফান্ডামেন্টাল এআই রিসার্চ (এফএআইআর) যে অগ্রগতি করেছে তার বিশদ বিবরণ দিচ্ছি। কল্পনা করুন যে দুর্বল সংযোগ সহ একটি এলাকায় বন্ধুর অডিও বার্তা শোনা এবং থামছে না বা ক্র্যাশ হচ্ছে না। আমাদের গবেষণা দেখায় যে আমরা কীভাবে এআই ব্যবহার করতে পারি তা অর্জন করতে সাহায্য করতে পারি।

ইনকোডেক দুটি মডেল অফার ডাউনলোড করার জন্য প্রস্তুত:

  1. একটি কার্যকারণ মডেল যা একটি 24 kHz নমুনা হার ব্যবহার করে, শুধুমাত্র মনোফোনিক অডিও সমর্থন করে এবং বিভিন্ন অডিও ডেটাতে প্রশিক্ষিত (স্পিচ এনকোডিংয়ের জন্য উপযুক্ত)। মডেলটি 1,5, 3, 6, 12 এবং 24 kbps বিট রেটে ট্রান্সমিশনের জন্য অডিও ডেটা প্যাক করতে ব্যবহার করা যেতে পারে।
  2. একটি নন-কারসাল মডেল যা 48kHz নমুনা হার ব্যবহার করে, স্টেরিও সাউন্ড সমর্থন করে এবং শুধুমাত্র সঙ্গীতের উপর প্রশিক্ষিত ছিল। মডেলটি 3, 6, 12 এবং 24 kbps বিট রেট সমর্থন করে।

প্রতিটি মডেলের জন্য, একটি অতিরিক্ত ভাষা মডেল প্রস্তুত করা হয়েছে, কিছু একটি উল্লেখযোগ্য বৃদ্ধির জন্য অনুমতি দেয় মানের ক্ষতি ছাড়াই কম্প্রেশন অনুপাত (40% পর্যন্ত)। অডিও কম্প্রেশনে মেশিন লার্নিং কৌশল প্রয়োগ করার পূর্ববর্তী প্রকল্পগুলির বিপরীতে, EnCodec শুধুমাত্র বক্তৃতা প্যাকেজিং জন্য ব্যবহার করা যেতে পারে, কিন্তু সঙ্গীত কম্প্রেশন জন্য 48 kHz এর স্যাম্পলিং ফ্রিকোয়েন্সি সহ, অডিও সিডির স্তরের সাথে সামঞ্জস্যপূর্ণ।

নতুন কোডেক ডেভেলপারদের মতে, MP64 ফরম্যাটের তুলনায় 3 kbps এর বিট হারে ট্রান্সমিট করে, তারা একই স্তরের গুণমান বজায় রেখে অডিও কম্প্রেশন অনুপাতকে প্রায় দশ গুণ বৃদ্ধি করতে সক্ষম হয়েছে (উদাহরণস্বরূপ, MP3 ব্যবহার করার সময় এটির জন্য 64 kbps ব্যান্ডউইথ প্রয়োজন, EnCodec-এ একই মানের সাথে স্থানান্তর করতে, 6 kbps যথেষ্ট)।

এই ডেটা তারপর একটি নিউরাল নেটওয়ার্ক ব্যবহার করে ডিকোড করা যেতে পারে। আমরা MP10 এর তুলনায় 3kbps এ আনুমানিক 64x কম্প্রেশন রেট অর্জন করেছি, মানের কোন ক্ষতি ছাড়াই। যদিও বক্তৃতার জন্য এই কৌশলগুলি আগে অন্বেষণ করা হয়েছে, আমরাই প্রথম এটিকে 48 kHz নমুনাযুক্ত স্টেরিও অডিও (অর্থাৎ সিডি গুণমান) এর জন্য কাজ করে, যা সঙ্গীত বিতরণের জন্য মানক।

কোডেক এর আর্কিটেকচার এটি একটি নিউরাল নেটওয়ার্কের ভিত্তিতে তৈরি করা হয়েছে "পরিবর্তনমূলক" স্থাপত্যের সাথে এবং চারটি বন্ডের উপর ভিত্তি করে: এনকোডার, কোয়ান্টাইজার, ডিকোডার এবং বৈষম্যকারী:

  • El এনকোডার ভয়েস ডেটা থেকে প্যারামিটার বের করে এবং কম ফ্রেমের হারে প্যাকেটাইজড স্ট্রীমে রূপান্তর করে।
  • El পরিমাপক (RVQ, অবশিষ্ট ভেক্টর কোয়ান্টিজার) এনকোডার আউটপুট স্ট্রীমকে প্যাকেটের সেটে রূপান্তর করে, নির্বাচিত বিট হারের সাথে সম্পর্কিত তথ্য সংকুচিত করে। কোয়ান্টাইজারের আউটপুট হল নেটওয়ার্কে ট্রান্সমিশন বা ডিস্কে সেভ করার জন্য উপযোগী ডেটার সংকুচিত উপস্থাপন।
  • El ডিকোডার সংকুচিত ডেটা উপস্থাপনা ডিকোড করে এবং মূল শব্দ তরঙ্গ পুনর্গঠন করে।
  • El বৈষম্যকারী মানব শ্রবণ উপলব্ধির মডেল বিবেচনায় নিয়ে উত্পন্ন নমুনার (নমুনা) গুণমান উন্নত করে।

মানের স্তর এবং বিটরেট নির্বিশেষে, এনকোডিং এবং ডিকোডিংয়ের জন্য ব্যবহৃত মডেলগুলি মোটামুটি পরিমিত সম্পদের প্রয়োজনীয়তার মধ্যে পৃথক (রিয়েল-টাইম অপারেশনের জন্য প্রয়োজনীয় গণনাগুলি একটি CPU কোরে সঞ্চালিত হয়)।

পরিশেষে, আপনাদের মধ্যে যারা আগ্রহী, আপনাদের জানা উচিত যে EnCodec-এর রেফারেন্স বাস্তবায়ন PyTorch ফ্রেমওয়ার্ক ব্যবহার করে পাইথনে লেখা হয়েছে এবং এটি একটি CC BY-NC 4.0 (Creative Commons Attribution-Noncommercial) লাইসেন্সের অধীনে অ-বাণিজ্যিক ব্যবহারের জন্য লাইসেন্সপ্রাপ্ত। কেবল.

আপনি যদি এটি সম্পর্কে আরও জানতে আগ্রহী হন তবে আপনি এখানে বিশদে পরামর্শ করতে পারেন নিম্নলিখিত লিঙ্ক।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়ী: AB ইন্টারনেট নেটওয়ার্ক 2008 SL
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।