EnCodec, Metas nye lydkodek

Encodec er en kodek som dekoder ved hjelp av et nevralt nettverk med en komprimeringshastighet på omtrent 10x

Nylig, Meta (tidligere Facebook) avduket sin nye lydkodek kalt EnCodec, que bruker maskinlæringsteknikker for å øke kompresjonsforholdet uten å miste kvalitet.

Den nye tilnærmingen kan komprimere og dekomprimere lyd i sanntid for å oppnå state-of-the-art størrelsesreduksjoner. kodeken kan brukes til både streaming av lyd i sanntid som for koding for senere lagring i filer.

I dag beskriver vi fremgangen vår Fundamental AI Research (FAIR) har gjort innen området AI-drevet lydhyperkomprimering. Tenk deg å lytte til en venns lydmelding i et område med dårlig tilkobling og ikke stoppe eller krasje. Forskningen vår viser hvordan vi kan bruke AI for å hjelpe oss å oppnå dette.

InCodec tilby to modeller klar til å laste ned:

En årsaksmodell som bruker en samplingsfrekvens på 24 kHz, støtter kun monofonisk lyd og er trent på en rekke lyddata (egnet for talekoding). Modellen kan brukes til å pakke lyddata for overføring med bithastigheter på 1,5, 3, 6, 12 og 24 kbps.
En ikke-årsaksmodell som bruker en samplingsfrekvens på 48 kHz, støtter stereolyd og ble kun trent på musikk. Modellen støtter bithastigheter på 3, 6, 12 og 24 kbps.

For hver modell er det utarbeidet en ekstra språkmodell, som gir mulighet for en betydelig økning i kompresjonsforholdet (opptil 40%) uten tap av kvalitet. I motsetning til tidligere prosjekter for å bruke maskinlæringsteknikker til lydkomprimering, EnCodec kan brukes ikke bare til taleemballasje, men også til musikkkomprimering med en samplingsfrekvens på 48 kHz, tilsvarende nivået på lyd-CDer.

I følge utviklerne av den nye kodeken, ved å sende med en bithastighet på 64 kbps sammenlignet med MP3-formatet, klarte de å øke lydkomprimeringsforholdet med omtrent ti ganger mens de beholdt samme kvalitetsnivå (for eksempel når du bruker MP3 det krever en båndbredde på 64 kbps, for å overføre med samme kvalitet i EnCodec er 6 kbps nok).

Disse dataene kan deretter dekodes ved hjelp av et nevralt nettverk. Vi oppnådde en omtrentlig 10x komprimeringshastighet sammenlignet med MP3 ved 64 kbps, uten tap av kvalitet. Selv om disse teknikkene har blitt utforsket før for tale, er vi de første som får det til å fungere for 48 kHz samplet stereolyd (dvs. CD-kvalitet), som er standarden for musikkdistribusjon.

Arkitekturen til kodeken Den er bygget på grunnlag av et nevralt nettverk med "transformativ" arkitektur og er basert på fire obligasjoner: koder, kvantizer, dekoder og diskriminator:

El codificador trekker ut parameterne fra stemmedataene og konverterer dem til en pakkebasert strøm med lavere bildefrekvens.
El kvantifiserer (RVQ, Residual Vector Quantizer) konverterer koderens utgangsstrøm til sett med pakker, og komprimerer informasjonen i forhold til den valgte bithastigheten. Utgangen fra kvantizeren er en komprimert representasjon av dataene som er egnet for overføring over nettverket eller lagring på disk.
El dekoderen dekoder den komprimerte datarepresentasjonen og rekonstruerer den originale lydbølgen.
El diskriminator forbedrer kvaliteten på de genererte prøvene (prøven) under hensyntagen til modellen for menneskelig auditiv persepsjon.

Uavhengig av kvalitetsnivå og bitrate, er modellene som brukes for koding og dekoding forskjellige i ganske beskjedne ressurskrav (beregningene som kreves for sanntidsdrift utføres på én CPU-kjerne).

Til slutt, for de av dere som er interessert, bør du vite at referanseimplementeringen av EnCodec er skrevet i Python ved bruk av PyTorch-rammeverket og er lisensiert under en CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) lisens for ikke-kommersiell bruk bare.

Hvis du er interessert i å lære mer om det, kan du se detaljene på følgende lenke.

LinuxAdictos

EnCodec, den nye Meta-lydkodeken

Legg igjen kommentaren Avbryt svar