EnCodec, der neue Meta-Audio-Codec

kodiert

Encodec ist ein Codec, der mithilfe eines neuronalen Netzwerks mit einer Komprimierungsrate von etwa 10x dekodiert

Kürzlich Meta (früher Facebook) stellte seinen neuen Audio-Codec namens EnCodec vor, dass verwendet Techniken des maschinellen Lernens um das Komprimierungsverhältnis zu erhöhen, ohne an Qualität zu verlieren.

Der neue Ansatz kann Audio in Echtzeit komprimieren und dekomprimieren, um modernste Größenreduzierungen zu erreichen. der Codec kann sowohl für das Streaming von Audio in Echtzeit verwendet werden B. zur Kodierung für die spätere Speicherung in Dateien.

Heute stellen wir detailliert die Fortschritte vor, die unsere Fundamental AI Research (FAIR) im Bereich der KI-gestützten Audio-Hyperkomprimierung gemacht hat. Stellen Sie sich vor, Sie hören die Audionachricht eines Freundes in einem Gebiet mit schlechter Verbindung und hören nicht auf oder stürzen ab. Unsere Forschung zeigt, wie wir mithilfe von KI dies erreichen können.

InCodec zwei Modelle anbieten zum Download bereit:

  1. Ein kausales Modell, das eine Abtastrate von 24 kHz verwendet, nur monophones Audio unterstützt und mit einer Vielzahl von Audiodaten trainiert wird (geeignet für die Sprachcodierung). Das Modell kann verwendet werden, um Audiodaten für die Übertragung mit Bitraten von 1,5, 3, 6, 12 und 24 kbps zu packen.
  2. Ein nicht kausales Modell, das eine Abtastrate von 48 kHz verwendet, Stereoton unterstützt und nur mit Musik trainiert wurde. Das Modell unterstützt Bitraten von 3, 6, 12 und 24 kbps.

Für jedes Modell wurde ein zusätzliches Sprachmodell erstellt, als ermöglicht eine deutliche Steigerung im Komprimierungsverhältnis (bis zu 40%) ohne Qualitätsverlust. Im Gegensatz zu früheren Projekten, bei denen Techniken des maschinellen Lernens auf die Audiokomprimierung angewendet wurden, EnCodec kann nicht nur zur Sprachpaketierung, sondern auch zur Musikkomprimierung verwendet werden mit einer Abtastfrequenz von 48 kHz, was dem Pegel von Audio-CDs entspricht.

Laut den Entwicklern des neuen Codecs gelang es ihnen, durch die Übertragung mit einer Bitrate von 64 kbps im Vergleich zum MP3-Format die Audiokomprimierungsrate um etwa das Zehnfache zu erhöhen, während sie das gleiche Qualitätsniveau beibehielten (z. B. bei Verwendung von MP3 es benötigt eine Bandbreite von 64 kbps, um mit der gleichen Qualität in EnCodec zu übertragen, reichen 6 kbps).

Diese Daten können dann mit einem neuronalen Netzwerk dekodiert werden. Wir haben eine ungefähr 10-fache Komprimierungsrate im Vergleich zu MP3 bei 64 kbps erreicht, ohne Qualitätsverlust. Während diese Techniken bereits für Sprache untersucht wurden, sind wir die ersten, die sie für 48 kHz gesampeltes Stereo-Audio (dh CD-Qualität) zum Laufen bringen, was der Standard für die Musikverteilung ist.

Die Architektur des Codecs Es basiert auf einem neuronalen Netz mit „transformativer“ Architektur und basiert auf vier Bindungen: Encoder, Quantisierer, Decoder und Diskriminator:

  • El codificador extrahiert die Parameter aus den Sprachdaten und wandelt sie in einen paketierten Stream mit einer niedrigeren Framerate um.
  • El Quantor (RVQ, Residual Vector Quantizer) wandelt den Encoder-Ausgangsstrom in Sätze von Paketen um und komprimiert die Informationen relativ zur ausgewählten Bitrate. Die Ausgabe des Quantisierers ist eine komprimierte Darstellung der Daten, die für die Übertragung über das Netzwerk oder das Speichern auf Platte geeignet ist.
  • El Decoder decodiert die komprimierte Datendarstellung und rekonstruiert die ursprüngliche Schallwelle.
  • El Diskriminator verbessert die Qualität der generierten Samples (Sample) unter Berücksichtigung des Modells der menschlichen Hörwahrnehmung.

Unabhängig von der Qualitätsstufe und der Bitrate unterscheiden sich die zum Kodieren und Dekodieren verwendeten Modelle durch einen recht bescheidenen Ressourcenbedarf (die für den Echtzeitbetrieb erforderlichen Berechnungen werden auf einem CPU-Kern durchgeführt).

Schließlich sollten Sie für diejenigen unter Ihnen, die daran interessiert sind, wissen, dass die Referenzimplementierung von EnCodec in Python unter Verwendung des PyTorch-Frameworks geschrieben und unter einer CC BY-NC 4.0-Lizenz (Creative Commons Attribution-NonCommercial) für die nicht kommerzielle Nutzung lizenziert ist nur.

Wenn Sie daran interessiert sind, mehr darüber zu erfahren, können Sie die Details unter einsehen den folgenden Link.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: AB Internet Networks 2008 SL
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.