Encodec on koodekki, joka purkaa käyttämällä hermoverkkoa, jonka pakkaussuhde on noin 10x
äskettäin Meta (entinen Facebook) julkisti uuden äänikoodekkin nimeltä EnCodec, että käyttää koneoppimistekniikoita lisätäksesi pakkaussuhdetta laadun heikkenemättä.
Uusi lähestymistapa voi pakata ja purkaa äänen reaaliajassa huippuluokan koon pienentämiseksi. koodekki voidaan käyttää sekä äänen suoratoistoon reaaliajassa kuin koodaukseen myöhempää tiedostojen tallentamista varten.
Tänään kerromme yksityiskohtaisesti Fundamental AI Research (FAIR) -tutkimuksemme edistymisestä tekoälyllä toimivan äänen hyperkompression alalla. Kuvittele, että kuuntelet ystäväsi ääniviestiä alueella, jossa on huonot yhteydet, etkä pysähdy tai kaatuisi. Tutkimuksemme osoittaa, kuinka voimme käyttää tekoälyä tämän saavuttamiseen.
InCodec tarjota kaksi mallia valmis ladattavaksi:
- Kausaalinen malli, joka käyttää 24 kHz:n näytteenottotaajuutta, tukee vain monofonista ääntä ja on koulutettu käyttämään erilaisia äänitietoja (sopii puheen koodaukseen). Mallia voidaan käyttää äänidatan pakkaamiseen siirtoa varten 1,5, 3, 6, 12 ja 24 kbps:n bittinopeudella.
- Ei-kausaalinen malli, joka käyttää 48 kHz:n näytteenottotaajuutta, tukee stereoääntä ja on opetettu vain musiikin parissa. Malli tukee bittinopeuksia 3, 6, 12 ja 24 kbps.
Jokaiselle mallille on laadittu lisäkielimalli, kuin mahdollistaa merkittävän lisäyksen puristussuhteessa (jopa 40 %) laadun heikkenemättä. Toisin kuin aikaisemmissa projekteissa koneoppimistekniikoiden soveltamiseksi äänen pakkaamiseen, EnCodecia voidaan käyttää paitsi puheen pakkaamiseen myös musiikin pakkaamiseen näytteenottotaajuudella 48 kHz, joka vastaa audio-CD-levyjen tasoa.
Uuden koodekin kehittäjien mukaan lähettämällä 64 kbps:n bittinopeudella MP3-muotoon verrattuna he onnistuivat kasvattamaan äänen pakkaussuhdetta noin kymmenen kertaa säilyttäen samalla laatutason (esimerkiksi MP3:a käytettäessä). se vaatii 64 kbps kaistanleveyden, 6 kbps riittää siirtoon samalla laadulla EnCodecissa).
Nämä tiedot voidaan sitten dekoodata käyttämällä hermoverkkoa. Saimme noin 10-kertaisen pakkausnopeuden MP3:een verrattuna 64 kbps:n nopeudella ilman laadun heikkenemistä. Vaikka näitä tekniikoita on tutkittu ennenkin puheen osalta, olemme ensimmäiset, jotka ovat saaneet ne toimimaan 48 kHz:n näytteitetylle stereoäänelle (eli CD-laadulle), joka on musiikin jakelun standardi.
Koodekin arkkitehtuuri Se on rakennettu neuroverkon pohjalle "transformatiivisella" arkkitehtuurilla ja perustuu neljään joukkovelkakirjalainaan: kooderi, kvantisoija, dekooderi ja erotin:
- El codificador poimii parametrit äänidatasta ja muuntaa sen paketoiduksi virraksi pienemmällä kehysnopeudella.
- El kvantori (RVQ, Residual Vector Quantizer) muuntaa kooderin lähtövirran pakettijoukoiksi, pakkaamalla tiedot suhteessa valittuun bittinopeuteen. Kvantisoijan lähtö on pakattu esitys tiedosta, joka soveltuu lähetettäväksi verkon yli tai tallennettavaksi levylle.
- El dekooderi purkaa pakatun dataesityksen ja rekonstruoi alkuperäisen ääniaallon.
- El syrjivä parantaa luotujen näytteiden (näytteen) laatua ottaen huomioon ihmisen kuuloaistin mallin.
Laatutasosta ja bittinopeudesta riippumatta koodaukseen ja dekoodaukseen käytetyt mallit eroavat melko vaatimattomilta resurssivaatimuksilta (reaaliaikaiseen toimintaan tarvittavat laskelmat tehdään yhdelle CPU-ytimelle).
Lopuksi kiinnostuneiden kannattaa tietää, että EnCodecin viitetoteutus on kirjoitettu Pythonissa käyttäen PyTorch-kehystä ja lisensoitu CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) -lisenssillä ei-kaupalliseen käyttöön. vain.
Jos olet kiinnostunut oppimaan siitä lisää, voit tutustua yksityiskohtiin osoitteessa seuraava linkki.
Ole ensimmäinen kommentti