EnCodec, નવું મેટા ઓડિયો કોડેક

એન્કોડેક

એન્કોડેક એ કોડેક છે જે લગભગ 10x ના કમ્પ્રેશન રેટ સાથે ન્યુરલ નેટવર્કનો ઉપયોગ કરીને ડીકોડ કરે છે

તાજેતરમાં, મેટા (અગાઉ ફેસબુક) એન્કોડેક નામના તેના નવા ઓડિયો કોડેકનું અનાવરણ કર્યું, ક્યુ મશીન લર્નિંગ તકનીકોનો ઉપયોગ કરે છે ગુણવત્તા ગુમાવ્યા વિના કમ્પ્રેશન રેશિયો વધારવા માટે.

અદ્યતન કદના ઘટાડા હાંસલ કરવા માટે નવો અભિગમ વાસ્તવિક સમયમાં ઓડિયોને સંકુચિત અને ડિકમ્પ્રેસ કરી શકે છે. કોડેક રીઅલ ટાઇમમાં બંને સ્ટ્રીમિંગ ઓડિયો માટે વાપરી શકાય છે ફાઇલોમાં પછીના સ્ટોરેજ માટે એન્કોડિંગ માટે.

આજે, અમે અમારા ફંડામેન્ટલ AI સંશોધન (FAIR) એ AI-સંચાલિત ઑડિઓ હાઇપર-કમ્પ્રેશનના ક્ષેત્રમાં કરેલી પ્રગતિની વિગતો આપી રહ્યાં છીએ. નબળી કનેક્ટિવિટીવાળા વિસ્તારમાં મિત્રના ઑડિઓ સંદેશને સાંભળવાની અને બંધ ન થવા અથવા ક્રેશ થવાની કલ્પના કરો. અમારું સંશોધન બતાવે છે કે અમે આ હાંસલ કરવામાં મદદ કરવા માટે AI નો ઉપયોગ કેવી રીતે કરી શકીએ છીએ.

ઇનકોડેક બે મોડલ ઓફર કરે છે ડાઉનલોડ કરવા માટે તૈયાર:

  1. એક કાર્યકારી મોડેલ કે જે 24 kHz સેમ્પલ રેટનો ઉપયોગ કરે છે, માત્ર મોનોફોનિક ઑડિયોને સપોર્ટ કરે છે અને વિવિધ ઑડિઓ ડેટા (વાણી એન્કોડિંગ માટે યોગ્ય) પર પ્રશિક્ષિત છે. મોડલનો ઉપયોગ 1,5, 3, 6, 12 અને 24 કેબીપીએસના બીટ દરે ટ્રાન્સમિશન માટે ઓડિયો ડેટા પેક કરવા માટે થઈ શકે છે.
  2. બિન-કારણકારી મોડેલ કે જે 48kHz સેમ્પલ રેટનો ઉપયોગ કરે છે, સ્ટીરિયો સાઉન્ડને સપોર્ટ કરે છે અને તેને માત્ર સંગીત પર તાલીમ આપવામાં આવી હતી. મોડલ 3, 6, 12 અને 24 kbps ના બીટ રેટને સપોર્ટ કરે છે.

દરેક મોડેલ માટે, એક વધારાનું ભાષા મોડેલ તૈયાર કરવામાં આવ્યું છે, શું નોંધપાત્ર વધારો કરવાની મંજૂરી આપે છે કમ્પ્રેશન રેશિયોમાં (40% સુધી) ગુણવત્તાની ખોટ વિના. ઑડિયો કમ્પ્રેશન પર મશીન લર્નિંગ તકનીકો લાગુ કરવા માટેના અગાઉના પ્રોજેક્ટ્સથી વિપરીત, EnCodec નો ઉપયોગ ફક્ત ભાષણ પેકેજિંગ માટે જ નહીં, પણ સંગીત સંકોચન માટે પણ થઈ શકે છે ઓડિયો સીડીના સ્તરને અનુરૂપ 48 kHz ની નમૂનાની આવર્તન સાથે.

નવા કોડેકના વિકાસકર્તાઓ અનુસાર, એમપી64 ફોર્મેટની સરખામણીમાં 3 કેબીપીએસના બીટ રેટ પર ટ્રાન્સમિટ કરીને, તેઓ સમાન સ્તરની ગુણવત્તા જાળવી રાખીને ઑડિયો કમ્પ્રેશન રેશિયોમાં લગભગ દસ ગણો વધારો કરવામાં વ્યવસ્થાપિત થયા (ઉદાહરણ તરીકે, જ્યારે એમપી3નો ઉપયોગ કરતા હોય ત્યારે એન્કોડેકમાં સમાન ગુણવત્તા સાથે ટ્રાન્સફર કરવા માટે તેને 64 kbpsની બેન્ડવિડ્થની જરૂર છે, 6 kbps પર્યાપ્ત છે).

આ ડેટા પછી ન્યુરલ નેટવર્કનો ઉપયોગ કરીને ડીકોડ કરી શકાય છે. અમે 10kbps પર MP3 ની સરખામણીમાં અંદાજિત 64x કમ્પ્રેશન રેટ હાંસલ કર્યો છે, ગુણવત્તામાં કોઈ ખોટ નથી. જ્યારે વાણી માટે આ તકનીકોની પહેલાં શોધ કરવામાં આવી છે, ત્યારે અમે તેને 48 kHz સેમ્પલ્ડ સ્ટીરિયો ઓડિયો (એટલે ​​કે CD ગુણવત્તા) માટે કામ કરવા માટે સૌ પ્રથમ છીએ, જે સંગીત વિતરણ માટેનું પ્રમાણભૂત છે.

કોડેકનું આર્કિટેક્ચર તે ન્યુરલ નેટવર્કના આધારે બનાવવામાં આવ્યું છે "પરિવર્તનશીલ" આર્કિટેક્ચર સાથે અને ચાર બોન્ડ પર આધારિત છે: એન્કોડર, ક્વોન્ટાઈઝર, ડીકોડર અને ભેદભાવ કરનાર:

  • El એન્કોડર વૉઇસ ડેટામાંથી પરિમાણોને બહાર કાઢે છે અને તેને નીચા ફ્રેમ દરે પેકેટાઇઝ્ડ સ્ટ્રીમમાં રૂપાંતરિત કરે છે.
  • El પરિમાણકર્તા (RVQ, શેષ વેક્ટર ક્વોન્ટાઇઝર) એન્કોડર આઉટપુટ સ્ટ્રીમને પેકેટના સેટમાં રૂપાંતરિત કરે છે, પસંદ કરેલ બીટ રેટને સંબંધિત માહિતીને સંકુચિત કરે છે. ક્વોન્ટાઇઝરનું આઉટપુટ નેટવર્ક પર ટ્રાન્સમિશન અથવા ડિસ્ક પર સાચવવા માટે યોગ્ય ડેટાનું સંકુચિત પ્રતિનિધિત્વ છે.
  • El ડીકોડર સંકુચિત ડેટા રજૂઆતને ડીકોડ કરે છે અને મૂળ ધ્વનિ તરંગનું પુનઃનિર્માણ કરે છે.
  • El ભેદભાવ કરનાર માનવ શ્રાવ્ય દ્રષ્ટિના મોડેલને ધ્યાનમાં લેતા જનરેટ કરેલા નમૂનાઓ (નમૂના) ની ગુણવત્તામાં સુધારો કરે છે.

ગુણવત્તા સ્તર અને બિટરેટને ધ્યાનમાં લીધા વિના, એન્કોડિંગ અને ડીકોડિંગ માટે ઉપયોગમાં લેવાતા મોડલ્સ એકદમ સામાન્ય સંસાધન આવશ્યકતાઓમાં અલગ પડે છે (રીઅલ-ટાઇમ ઓપરેશન માટે જરૂરી ગણતરીઓ એક CPU કોર પર કરવામાં આવે છે).

છેલ્લે, તમારામાંના જેઓ રસ ધરાવતા હોય, તમારે જાણવું જોઈએ કે EnCodec નો સંદર્ભ અમલીકરણ PyTorch ફ્રેમવર્કનો ઉપયોગ કરીને Python માં લખાયેલ છે અને બિન-વ્યાવસાયિક ઉપયોગ માટે CC BY-NC 4.0 (ક્રિએટિવ કૉમન્સ એટ્રિબ્યુશન-નોન-કમર્શિયલ) લાયસન્સ હેઠળ લાઇસન્સ પ્રાપ્ત છે. માત્ર

જો તમે તેના વિશે વધુ જાણવામાં રસ ધરાવો છો, તો તમે અહીં વિગતોનો સંપર્ક કરી શકો છો નીચેની કડી.


તમારી ટિપ્પણી મૂકો

તમારું ઇમેઇલ સરનામું પ્રકાશિત કરવામાં આવશે નહીં. આવશ્યક ક્ષેત્રો સાથે ચિહ્નિત થયેલ છે *

*

*

  1. ડેટા માટે જવાબદાર: AB ઈન્ટરનેટ નેટવર્ક્સ 2008 SL
  2. ડેટાનો હેતુ: નિયંત્રણ સ્પામ, ટિપ્પણી સંચાલન.
  3. કાયદો: તમારી સંમતિ
  4. ડેટાની વાતચીત: કાયદાકીય જવાબદારી સિવાય ડેટા તૃતીય પક્ષને આપવામાં આવશે નહીં.
  5. ડેટા સ્ટોરેજ: cસેન્ટસ નેટવર્ક્સ (ઇયુ) દ્વારા હોસ્ટ કરેલો ડેટાબેઝ
  6. અધિકાર: કોઈપણ સમયે તમે તમારી માહિતીને મર્યાદિત, પુન recoverપ્રાપ્ત અને કા deleteી શકો છો.