Silero, sistem sintesis pertuturan rangkaian saraf

Beberapa hari yang lalu keluaran versi awam baharu telah diumumkan sistem sintesis pertuturan rangkaian saraf silero Text-to-Speech, matlamat utama projek adalah untuk mencipta sistem sintesis pertuturan berkualiti tinggi moden yang tidak kalah dengan penyelesaian komersial syarikat dan tersedia untuk semua orang tanpa menggunakan peralatan pelayan yang mahal.

Model diedarkan di bawah lesen GNU AGPL, tetapi syarikat yang membangunkan projek itu tidak mendedahkan mekanisme untuk model latihan. Untuk bermula, anda boleh menggunakan PyTorch dan rangka kerja yang menyokong format ONNX.

Pada masa ini, Silero Ia mempunyai model dalam bahasa Inggeris, Sepanyol, Jerman, Rusia, Perancis, Ukraine, Tatar, Uzbekistan, Bashkir, antara lain.

Sintesis suara dalam Silero Ia berdasarkan penggunaan algoritma rangkaian saraf. kaedah pemprosesan isyarat moden dan digital yang diubahsuai secara mendalam.

Ia diperhatikan bahawa masalah utama penyelesaian rangkaian saraf modens untuk sintesis pertuturan adalah selalunya hanya tersedia sebagai sebahagian daripada penyelesaian awan berbayar dan produk awam mempunyai keperluan perkakasan yang tinggi, berkualiti rendah, atau produk tidak siap dan sedia untuk digunakan. Contohnya, untuk berjaya menjalankan salah satu seni bina sintesis hujung ke hujung baharu yang popular, VITS, dalam mod sintesis (iaitu, bukan untuk latihan model), kad video dengan lebih daripada 16 gigabait VRAM diperlukan.

Bertentangan dengan trend semasa, Penyelesaian Silero berjalan dengan jayanya walaupun pada benang 1 x86 pemproses Intel dengan arahan AVX2. Pada 4 utas pemproses, sintesis membolehkan anda mensintesis 30-60 saat sesaat dalam mod sintesis 8 kHz, dalam mod 24 kHz - 15-20 saat, dan dalam mod 48 kHz - sekitar 10 saat.

Kebaharuan utama versi baharu Silero

Dalam versi baru yang dibentangkan ini, ia diserlahkan saiz model dikurangkan 2 kali ganda kepada 50 megabait, serta model telah menjadi 10 kali lebih pantas dan sebagai contoh, dalam mod 24 kHz, mereka boleh mensintesis sehingga 20 saat audio sesaat pada 4 utas pemproses.

Selain itu model tahu bagaimana untuk berhenti seketika, mereka boleh terima perenggan penuh teks sebagai input, teg SSML disokong dan semua pilihan pertuturan untuk bahasa dibungkus ke dalam satu model.

Ia juga diketengahkan bahawa Sintesis berfungsi serentak dalam tiga kadar sampel untuk dipilih: 8, 24 dan 48 kilohertz, "masalah kanak-kanak": ketidakstabilan dan peninggalan perkataan diselesaikan dan bendera telah ditambah untuk mengawal peletakan automatik aksen dan peletakan huruf "ё".

Sebaliknya, ia juga disebut bahawa terdapat beberapa masalah sistemik yang wujud dalam sintesis Silero dan ia adalah:

  • Tidak seperti penyelesaian sintesis yang lebih tradisional seperti RHVoice, sintesis Silero tidak mempunyai penyepaduan SAPI, pelanggan yang mudah dipasang dan penyepaduan Windows dan Android.
  • Kelajuan, walaupun belum pernah berlaku sebelum ini untuk penyelesaian sedemikian, mungkin tidak mencukupi untuk sintesis on-the-fly pada pemproses lemah berkualiti tinggi.
  • Penyelesai tekanan automatik tidak mengendalikan homograf dan masih membuat ralat, tetapi pepijat ini akan diperbaiki dalam keluaran akan datang.
  • Versi semasa sintesis tidak berfungsi pada pemproses tanpa arahan AVX2 (atau anda perlu menukar konfigurasi PyTorch secara khusus), kerana salah satu modul di dalam model dikuantisasi.
  • Versi semasa sintesis pada dasarnya mempunyai satu-satunya pergantungan pada PyTorch.
  • libtorch tersedia untuk platform mudah alih adalah lebih rumit daripada masa jalan ONNX, tetapi versi model ONNX belum disediakan lagi.

Akhirnya disebut bahawa untuk versi seterusnya Ia akan dikeluarkan dalam masa terdekat dengan perubahan berikut:

  • Kadar sintesis akan meningkat sebanyak 2 hingga 4 kali lebih banyak.
  • Templat sintesis untuk bahasa CIS: Kalmyk, Tatar, Uzbekistan dan Ukraine akan dikemas kini.
  • Model untuk bahasa Eropah akan ditambah.
  • Model untuk bahasa India akan ditambah.
  • Model untuk bahasa Inggeris akan ditambah.

Jika anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh menyemak perinciannya Dalam pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab untuk data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.