என்கோடெக், புதிய மெட்டா ஆடியோ கோடெக்

குறியாக்கம்

என்கோடெக் என்பது ஒரு நரம்பியல் வலையமைப்பைப் பயன்படுத்தி, தோராயமாக 10x சுருக்க விகிதத்துடன் டிகோட் செய்யும் ஒரு கோடெக் ஆகும்.

சமீபத்தில், மெட்டா (முன்பு முகநூல்) என்கோடெக் என்ற புதிய ஆடியோ கோடெக்கை வெளியிட்டது, என்று இயந்திர கற்றல் நுட்பங்களைப் பயன்படுத்துகிறது தரத்தை இழக்காமல் சுருக்க விகிதத்தை அதிகரிக்க.

புதிய அணுகுமுறையானது அதிநவீன அளவு குறைப்புகளை அடைய உண்மையான நேரத்தில் ஆடியோவை சுருக்கவும் மற்றும் டிகம்ப்ரஸ் செய்யவும் முடியும். கோடெக் உண்மையான நேரத்தில் ஸ்ட்ரீமிங் ஆடியோ இரண்டிற்கும் பயன்படுத்தலாம் கோப்புகளில் பிந்தைய சேமிப்பிற்கான குறியாக்கத்தைப் பொறுத்தவரை.

இன்று, எங்களின் அடிப்படை AI ஆராய்ச்சி (FAIR) AI-இயங்கும் ஆடியோ ஹைப்பர்-கம்ப்ரஷன் பகுதியில் அடைந்துள்ள முன்னேற்றத்தை விவரிக்கிறோம். மோசமான இணைப்பு உள்ள பகுதியில் நண்பரின் ஆடியோ செய்தியைக் கேட்பது மற்றும் நிறுத்தப்படாமல் அல்லது செயலிழக்காமல் இருப்பதை கற்பனை செய்து பாருங்கள். இதை அடைய AI ஐ எவ்வாறு பயன்படுத்தலாம் என்பதை எங்கள் ஆராய்ச்சி காட்டுகிறது.

இன்கோடெக் இரண்டு மாடல்களை வழங்குகின்றன பதிவிறக்கம் செய்ய தயார்:

  1. 24 kHz மாதிரி விகிதத்தைப் பயன்படுத்தும் ஒரு காரண மாடல், மோனோபோனிக் ஆடியோவை மட்டுமே ஆதரிக்கிறது மற்றும் பல்வேறு ஆடியோ தரவுகளில் பயிற்சியளிக்கப்படுகிறது (பேச்சு குறியாக்கத்திற்கு ஏற்றது). 1,5, 3, 6, 12 மற்றும் 24 kbps பிட் விகிதங்களில் ஒலிபரப்புக்கான ஆடியோ தரவை பேக் செய்ய இந்த மாதிரியைப் பயன்படுத்தலாம்.
  2. 48kHz மாதிரி வீதத்தைப் பயன்படுத்தும், ஸ்டீரியோ ஒலியை ஆதரிக்கும் மற்றும் இசையில் மட்டுமே பயிற்சியளிக்கப்பட்ட ஒரு காரணமற்ற மாதிரி. மாடல் 3, 6, 12 மற்றும் 24 kbps பிட் விகிதங்களை ஆதரிக்கிறது.

ஒவ்வொரு மாதிரிக்கும், கூடுதல் மொழி மாதிரி தயாரிக்கப்பட்டுள்ளது, என்ன குறிப்பிடத்தக்க அதிகரிப்புக்கு அனுமதிக்கிறது தரத்தை இழக்காமல் சுருக்க விகிதத்தில் (40% வரை). ஆடியோ சுருக்கத்திற்கு இயந்திர கற்றல் நுட்பங்களைப் பயன்படுத்துவதற்கு முந்தைய திட்டங்களைப் போலல்லாமல், என்கோடெக் பேச்சு பேக்கேஜிங்கிற்கு மட்டுமல்ல, இசை சுருக்கத்திற்கும் பயன்படுத்தப்படலாம் 48 kHz மாதிரி அதிர்வெண்ணுடன், ஆடியோ சிடிக்களின் நிலைக்கு ஒத்திருக்கிறது.

புதிய கோடெக்கின் டெவலப்பர்களின் கூற்றுப்படி, MP64 வடிவத்துடன் ஒப்பிடும்போது 3 kbps பிட் விகிதத்தில் பரிமாற்றம் செய்வதன் மூலம், அதே தரத்தை பராமரிக்கும் போது ஆடியோ சுருக்க விகிதத்தை சுமார் பத்து மடங்கு அதிகரிக்க முடிந்தது (எடுத்துக்காட்டாக, MP3 ஐப் பயன்படுத்தும் போது இதற்கு 64 kbps அலைவரிசை தேவை, அதே தரத்துடன் என்கோடெக்கில் மாற்ற, 6 kbps போதுமானது).

இந்தத் தரவை நரம்பியல் நெட்வொர்க்கைப் பயன்படுத்தி டிகோட் செய்ய முடியும். 10kbps இல் MP3 உடன் ஒப்பிடும்போது தோராயமான 64x சுருக்க விகிதத்தை நாங்கள் அடைந்துள்ளோம், தரம் குறையாது. பேச்சுக்காக இந்த நுட்பங்கள் முன்பே ஆராயப்பட்டிருந்தாலும், இசை விநியோகத்திற்கான தரமான 48 kHz மாதிரியான ஸ்டீரியோ ஆடியோவிற்கு (அதாவது CD தரம்) வேலை செய்வதில் நாங்கள் முதலில் இருக்கிறோம்.

கோடெக்கின் கட்டிடக்கலை இது ஒரு நரம்பியல் வலையமைப்பின் அடிப்படையில் கட்டமைக்கப்பட்டுள்ளது "மாற்றும்" கட்டிடக்கலையுடன் மற்றும் நான்கு பிணைப்புகளை அடிப்படையாகக் கொண்டது: குறியாக்கி, குவாண்டிசர், டிகோடர் மற்றும் பாகுபாடு:

  • El குறியாக்கி குரல் தரவிலிருந்து அளவுருக்களைப் பிரித்தெடுத்து, அதை குறைந்த பிரேம் வீதத்தில் பாக்கெட் செய்யப்பட்ட ஸ்ட்ரீமாக மாற்றுகிறது.
  • El அளவி (RVQ, Residual Vector Quantizer) குறியாக்கி வெளியீட்டு ஸ்ட்ரீமை பாக்கெட்டுகளின் தொகுப்பாக மாற்றுகிறது, தேர்ந்தெடுக்கப்பட்ட பிட் வீதத்துடன் தொடர்புடைய தகவலை சுருக்குகிறது. குவாண்டிசரின் வெளியீடு என்பது பிணையத்தில் பரிமாற்றம் செய்வதற்கு அல்லது வட்டில் சேமிப்பதற்கு ஏற்ற தரவுகளின் சுருக்கப்பட்ட பிரதிநிதித்துவமாகும்.
  • El குறிவிலக்கியையும் சுருக்கப்பட்ட தரவு பிரதிநிதித்துவத்தை டிகோட் செய்து அசல் ஒலி அலையை மறுகட்டமைக்கிறது.
  • El பாகுபாடு காட்டுபவர் மனித செவிப்புல உணர்வின் மாதிரியை கணக்கில் எடுத்துக்கொண்டு உருவாக்கப்பட்ட மாதிரிகளின் (மாதிரி) தரத்தை மேம்படுத்துகிறது.

தர நிலை மற்றும் பிட்ரேட்டைப் பொருட்படுத்தாமல், குறியாக்கம் மற்றும் டிகோடிங்கிற்குப் பயன்படுத்தப்படும் மாதிரிகள் மிகவும் மிதமான ஆதாரத் தேவைகளில் வேறுபடுகின்றன (நிகழ்நேர செயல்பாட்டிற்குத் தேவையான கணக்கீடுகள் ஒரு CPU மையத்தில் செய்யப்படுகின்றன).

இறுதியாக, உங்களில் ஆர்வமுள்ளவர்களுக்கு, என்கோடெக்கின் குறிப்பு செயல்படுத்தல் பைடார்ச் கட்டமைப்பைப் பயன்படுத்தி பைத்தானில் எழுதப்பட்டுள்ளது மற்றும் வணிகரீதியான பயன்பாட்டிற்கான CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) உரிமத்தின் கீழ் உரிமம் பெற்றுள்ளது என்பதை நீங்கள் அறிந்து கொள்ள வேண்டும். மட்டுமே.

நீங்கள் அதைப் பற்றி மேலும் அறிய ஆர்வமாக இருந்தால், நீங்கள் விவரங்களைப் பார்க்கலாம் பின்வரும் இணைப்பு.


உங்கள் கருத்தை தெரிவிக்கவும்

உங்கள் மின்னஞ்சல் முகவரி வெளியிடப்பட்ட முடியாது. தேவையான புலங்கள் குறிக்கப்பட்டிருக்கும் *

*

*

  1. தரவுகளுக்குப் பொறுப்பு: AB இன்டர்நெட் நெட்வொர்க்ஸ் 2008 SL
  2. தரவின் நோக்கம்: கட்டுப்பாட்டு ஸ்பேம், கருத்து மேலாண்மை.
  3. சட்டபூர்வமாக்கல்: உங்கள் ஒப்புதல்
  4. தரவின் தொடர்பு: சட்டபூர்வமான கடமையால் தவிர மூன்றாம் தரப்பினருக்கு தரவு தெரிவிக்கப்படாது.
  5. தரவு சேமிப்பு: ஆக்சென்டஸ் நெட்வொர்க்குகள் (EU) வழங்கிய தரவுத்தளம்
  6. உரிமைகள்: எந்த நேரத்திலும் உங்கள் தகவல்களை நீங்கள் கட்டுப்படுத்தலாம், மீட்டெடுக்கலாம் மற்றும் நீக்கலாம்.