EnCodec, le nouveau codec Meta audio

encodec

Encodec est un codec qui décode à l'aide d'un réseau de neurones avec un taux de compression d'environ 10x

Récemment, Meta (anciennement Facebook) a dévoilé son nouveau codec audio appelé EnCodec, Quoi utilise des techniques d'apprentissage automatique pour augmenter le taux de compression sans perte de qualité.

La nouvelle approche peut compresser et décompresser l'audio en temps réel pour obtenir des réductions de taille à la pointe de la technologie. le codec peut être utilisé à la fois pour le streaming audio en temps réel quant à l'encodage pour un stockage ultérieur dans des fichiers.

Aujourd'hui, nous détaillons les progrès réalisés par notre recherche fondamentale sur l'IA (FAIR) dans le domaine de l'hyper-compression audio alimentée par l'IA. Imaginez que vous écoutez le message audio d'un ami dans une zone où la connectivité est médiocre et que vous ne vous arrêtez pas ou ne plantez pas. Nos recherches montrent comment nous pouvons utiliser l'IA pour nous aider à atteindre cet objectif.

InCodec proposer deux modèles prêt à télécharger :

  1. Un modèle causal qui utilise une fréquence d'échantillonnage de 24 kHz, ne prend en charge que l'audio monophonique et est formé sur une variété de données audio (adapté au codage de la parole). Le modèle peut être utilisé pour emballer des données audio pour une transmission à des débits binaires de 1,5, 3, 6, 12 et 24 kbps.
  2. Un modèle non causal qui utilise une fréquence d'échantillonnage de 48 kHz, prend en charge le son stéréo et a été formé uniquement sur la musique. Le modèle prend en charge des débits binaires de 3, 6, 12 et 24 kbps.

Pour chaque modèle, un modèle de langue supplémentaire a été préparé, Que lo permet une augmentation significative dans le taux de compression (jusqu'à 40%) sans perte de qualité. Contrairement aux projets précédents visant à appliquer des techniques d'apprentissage automatique à la compression audio, EnCodec peut être utilisé non seulement pour l'emballage de la parole, mais aussi pour la compression de la musique avec une fréquence d'échantillonnage de 48 kHz, correspondant au niveau des CD audio.

Selon les développeurs du nouveau codec, en transmettant à un débit binaire de 64 kbps par rapport au format MP3, ils ont réussi à multiplier par environ dix le taux de compression audio tout en conservant le même niveau de qualité (par exemple, lors de l'utilisation de MP3 il nécessite une bande passante de 64 kbps, pour transférer avec la même qualité en EnCodec, 6 kbps suffisent).

Ces données peuvent ensuite être décodées à l'aide d'un réseau de neurones. Nous avons atteint un taux de compression d'environ 10x par rapport au MP3 à 64kbps, sans perte de qualité. Bien que ces techniques aient déjà été explorées pour la parole, nous sommes les premiers à les faire fonctionner pour l'audio stéréo échantillonné à 48 kHz (c'est-à-dire la qualité CD), qui est la norme pour la distribution de musique.

L'architecture du codec Il est construit sur la base d'un réseau de neurones avec une architecture « transformatrice » et est basé sur quatre liens: encodeur, quantificateur, décodeur et discriminateur :

  • El codificador extrait les paramètres des données vocales et les convertit en un flux en paquets à une fréquence d'images inférieure.
  • El quantificateur (RVQ, Residual Vector Quantizer) convertit le flux de sortie du codeur en ensembles de paquets, comprimant les informations relatives au débit binaire sélectionné. La sortie du quantificateur est une représentation compressée des données pouvant être transmise sur le réseau ou sauvegardée sur disque.
  • El décodeur décode la représentation des données compressées et reconstruit l'onde sonore d'origine.
  • El discriminateur améliore la qualité des échantillons générés (sample) en tenant compte du modèle de perception auditive humaine.

Quels que soient le niveau de qualité et le débit binaire, les modèles utilisés pour l'encodage et le décodage diffèrent par des besoins en ressources assez modestes (les calculs nécessaires au fonctionnement en temps réel sont effectués sur un cœur de processeur).

Enfin, pour ceux d'entre vous qui sont intéressés, sachez que l'implémentation de référence d'EnCodec est écrite en Python à l'aide du framework PyTorch et est sous licence CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) pour une utilisation non commerciale seulement.

Si vous souhaitez en savoir plus, vous pouvez consulter les détails sur le lien suivant.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec *

*

*

  1. Responsable des données : AB Internet Networks 2008 SL
  2. Finalité des données: Contrôle du SPAM, gestion des commentaires.
  3. Légitimation: votre consentement
  4. Communication des données: Les données ne seront pas communiquées à des tiers sauf obligation légale.
  5. Stockage des données: base de données hébergée par Occentus Networks (EU)
  6. Droits: à tout moment, vous pouvez limiter, récupérer et supprimer vos informations.