EnCodec, ο νέος κωδικοποιητής ήχου Meta

κωδικοποιώ

Το Encodec είναι ένας κωδικοποιητής που αποκωδικοποιεί χρησιμοποιώντας ένα νευρωνικό δίκτυο με ρυθμό συμπίεσης περίπου 10x

Πρόσφατα, Meta (πρώην Facebook) αποκάλυψε τον νέο κωδικοποιητή ήχου που ονομάζεται EnCodec, ότι χρησιμοποιεί τεχνικές μηχανικής μάθησης για να αυξήσετε την αναλογία συμπίεσης χωρίς απώλεια ποιότητας.

Η νέα προσέγγιση μπορεί να συμπιέσει και να αποσυμπιέσει τον ήχο σε πραγματικό χρόνο για να επιτύχει κορυφαίες μειώσεις μεγέθους. ο κωδικοποιητής μπορεί να χρησιμοποιηθεί τόσο για ροή ήχου σε πραγματικό χρόνο ως προς την κωδικοποίηση για μεταγενέστερη αποθήκευση σε αρχεία.

Σήμερα, περιγράφουμε λεπτομερώς την πρόοδο που έχει σημειώσει η Θεμελιώδης Έρευνα AI (FAIR) στον τομέα της υπερσυμπίεσης ήχου που τροφοδοτείται από AI. Φανταστείτε να ακούτε το ηχητικό μήνυμα ενός φίλου σε μια περιοχή με κακή συνδεσιμότητα και να μην σταματάτε ή να χτυπάτε. Η έρευνά μας δείχνει πώς μπορούμε να χρησιμοποιήσουμε την τεχνητή νοημοσύνη για να μας βοηθήσει να το πετύχουμε αυτό.

Σε Codec προσφέρει δύο μοντέλα έτοιμο για λήψη:

  1. Ένα μοντέλο αιτιώδους συνάφειας που χρησιμοποιεί ρυθμό δειγματοληψίας 24 kHz, υποστηρίζει μόνο μονοφωνικό ήχο και εκπαιδεύεται σε μια ποικιλία δεδομένων ήχου (κατάλληλο για κωδικοποίηση ομιλίας). Το μοντέλο μπορεί να χρησιμοποιηθεί για τη συσκευασία δεδομένων ήχου για μετάδοση σε ρυθμούς bit 1,5, 3, 6, 12 και 24 kbps.
  2. Ένα μοντέλο χωρίς αιτία που χρησιμοποιεί ρυθμό δειγματοληψίας 48 kHz, υποστηρίζει στερεοφωνικό ήχο και έχει εκπαιδευτεί μόνο στη μουσική. Το μοντέλο υποστηρίζει ρυθμούς bit 3, 6, 12 και 24 kbps.

Για κάθε μοντέλο, έχει προετοιμαστεί ένα πρόσθετο μοντέλο γλώσσας, ως επιτρέπει σημαντική αύξηση σε αναλογία συμπίεσης (έως 40%) χωρίς απώλεια ποιότητας. Σε αντίθεση με προηγούμενα έργα για την εφαρμογή τεχνικών μηχανικής εκμάθησης στη συμπίεση ήχου, Το EnCodec μπορεί να χρησιμοποιηθεί όχι μόνο για συσκευασία ομιλίας, αλλά και για συμπίεση μουσικής με συχνότητα δειγματοληψίας 48 kHz, που αντιστοιχεί στο επίπεδο των CD ήχου.

Σύμφωνα με τους προγραμματιστές του νέου κωδικοποιητή, μεταδίδοντας με ρυθμό bit 64 kbps σε σύγκριση με τη μορφή MP3, κατάφεραν να αυξήσουν τον λόγο συμπίεσης ήχου κατά περίπου δέκα φορές διατηρώντας το ίδιο επίπεδο ποιότητας (για παράδειγμα, όταν χρησιμοποιείτε MP3 απαιτεί εύρος ζώνης 64 kbps, για να μεταφερθεί με την ίδια ποιότητα στο EnCodec, αρκούν 6 kbps).

Αυτά τα δεδομένα μπορούν στη συνέχεια να αποκωδικοποιηθούν χρησιμοποιώντας ένα νευρωνικό δίκτυο. Πετύχαμε κατά προσέγγιση ρυθμό συμπίεσης 10x σε σύγκριση με το MP3 στα 64 kbps, χωρίς απώλεια ποιότητας. Ενώ αυτές οι τεχνικές έχουν διερευνηθεί στο παρελθόν για την ομιλία, είμαστε οι πρώτοι που τις κάναμε να λειτουργήσει για στερεοφωνικό ήχο δειγματοληψίας 48 kHz (δηλαδή ποιότητα CD), που είναι το πρότυπο για τη διανομή μουσικής.

Η αρχιτεκτονική του κωδικοποιητή Είναι χτισμένο με βάση ένα νευρωνικό δίκτυο με «μεταμορφωτική» αρχιτεκτονική και βασίζεται σε τέσσερα ομόλογα: κωδικοποιητής, κβαντιστής, αποκωδικοποιητής και διαχωριστής:

  • El κωδικοποιητή εξάγει τις παραμέτρους από τα φωνητικά δεδομένα και τα μετατρέπει σε πακετοποιημένη ροή με χαμηλότερο ρυθμό καρέ.
  • El ποσοτικός (RVQ, Residual Vector Quantizer) μετατρέπει τη ροή εξόδου του κωδικοποιητή σε σύνολα πακέτων, συμπιέζοντας τις πληροφορίες σε σχέση με τον επιλεγμένο ρυθμό μετάδοσης bit. Η έξοδος του κβαντιστή είναι μια συμπιεσμένη αναπαράσταση των δεδομένων που είναι κατάλληλα για μετάδοση μέσω του δικτύου ή αποθήκευση στο δίσκο.
  • El αποκωδικοποιητή αποκωδικοποιεί την αναπαράσταση συμπιεσμένων δεδομένων και αναδομεί το αρχικό ηχητικό κύμα.
  • El διευκρινιστής βελτιώνει την ποιότητα των παραγόμενων δειγμάτων (δείγμα) λαμβάνοντας υπόψη το μοντέλο της ανθρώπινης ακουστικής αντίληψης.

Ανεξάρτητα από το επίπεδο ποιότητας και τον ρυθμό μετάδοσης bit, τα μοντέλα που χρησιμοποιούνται για την κωδικοποίηση και την αποκωδικοποίηση διαφέρουν σε σχετικά μέτριες απαιτήσεις πόρων (οι υπολογισμοί που απαιτούνται για λειτουργία σε πραγματικό χρόνο εκτελούνται σε έναν πυρήνα CPU).

Τέλος, για όσους από εσάς ενδιαφέρεστε, θα πρέπει να γνωρίζετε ότι η υλοποίηση αναφοράς του EnCodec είναι γραμμένη σε Python χρησιμοποιώντας το πλαίσιο PyTorch και διαθέτει άδεια χρήσης CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial) για μη εμπορική χρήση μόνο.

Εάν ενδιαφέρεστε να μάθετε περισσότερα σχετικά με αυτό, μπορείτε να συμβουλευτείτε τις λεπτομέρειες στο τον ακόλουθο σύνδεσμο.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: AB Internet Networks 2008 SL
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.