Mozilla Common Voice 7.0 hadir dengan lebih dari 13,000 jam data suara

Baru-baru ini NVIDIA dan Mozilla mengumumkan rilis versi baru "Mozilla Common Voice 7.0" yang mewakili lebih dari 13.000 jam data suara asal kolektif dan penambahan 16 bahasa lainnya dan itu dibandingkan dengan pembaruan terakhir, ukuran volume bahan berbicara dalam koleksi itu telah meningkat hampir 50% lebih.

Selain itu, jumlah bahasa yang didukung telah meningkat dari 60 menjadi 76, termasuk dukungan tambahan untuk bahasa Belarusia, Kazakh, Uzbek, Bulgaria, Armenia, Azerbaijan, dan Bashkir untuk pertama kalinya.

Bagi mereka yang tidak terbiasa dengan Common Voice, mereka harus tahu bahwa eIni adalah kumpulan data suara data terbuka terbesar di dunia dan dirancang untuk mendemokratisasi teknologi suara. Ini digunakan oleh para peneliti, akademisi, dan pengembang di seluruh dunia.

Karyawan memobilisasi komunitas mereka sendiri untuk menyumbangkan data suara ke database publik MCV, yang dapat digunakan siapa saja untuk melatih teknologi yang mendukung suara. Sebagai bagian dari kolaborasi NVIDIA cdi Mozilla Common Voice, model yang dilatih dalam hal ini dan kumpulan data publik lainnya tersedia secara gratis melalui toolkit open source yang disebut NVIDIA NeMo.

Proyek bertujuan untuk mengatur kerja bersama untuk mengumpulkan database template suara, dengan mempertimbangkan semua variasi suara dan cara berbicara. Basis data yang terakumulasi dengan catatan pengucapan yang berbeda dari frasa khas ucapan manusia dapat digunakan tanpa batasan dalam sistem pembelajaran mesin dan dalam proyek penelitian.

Menurut penulis Vosk Continuous Voice Recognition Library, kekurangan dari Common Voice set adalah materi vokal yang berat sebelah (dominasi pria berusia 20-an dan 30-an dan kurangnya materi dengan suara wanita, anak-anak). dan lansia), kurangnya variabilitas kosakata (pengulangan frasa yang sama) dan distribusi rekaman MP3 yang rentan terhadap distorsi.

Tentang versi baru Common Voice 7.0

Dalam versi baru ini lebih dari 75 ribu orang berpartisipasi dalam persiapan materi dalam bahasa Inggris, mendikte 2637 jam pidato yang dikonfirmasi (ada 66 ribu peserta dan 1686 jam).

Juga seperti yang kami sebutkan di awal, versi baru ini memperkenalkan 16 bahasa baru ke dalam kumpulan data Common Voice dengan total 76 bahasa, di mana lima bahasa teratas berdasarkan total jam adalah Inggris (2.630 jam), Kinyarwanda (2.260), Jerman (1.040), Catalan (920) dan Esperanto (840).

Bahasa yang paling banyak mengalami peningkatan persentase adalah bahasa Thailand (pertumbuhan hampir 20 kali lipat, dari 12 jam menjadi 250 jam), luganda (pertumbuhan 9 kali lipat, dari 8 jam menjadi 80 jam), Esperanto (pertumbuhan lebih dari 7 kali, dari 100 jam menjadi 840 jam) dan Tamil (pertumbuhan lebih dari 8x, dari 24 jam menjadi 220 jam). Anehnya, Rwanda menempati urutan kedua dalam hal data kumulatif, yang 2260 jam dikumpulkan. Mereka diikuti oleh Jerman (1040), Catalan (920) dan Esperanto (840). Dataset sekarang menampilkan lebih dari 182,000 suara unik, pertumbuhan 25% dalam komunitas pembayar pajak hanya dalam enam bulan.

Disebutkan juga bahwa sebagai bagian dari partisipasi mereka dalam proyek tersebut, NVIDIA telah menyiapkan model terlatih siap pakai untuk sistem pembelajaran mesin berdasarkan data yang dikumpulkan (kompatibel dengan PyTorch). Model didistribusikan sebagai bagian dari alat NVIDIA NeMo gratis dan terbuka, yang, misalnya, sudah digunakan dalam layanan suara otomatis MTS dan Sberbank.

Modelnya adalah ditujukan untuk pengenalan suara, sintesis ucapan, dan sistem pemrosesan informasi dalam bahasa alami dan mereka dapat berguna bagi peneliti dalam desain sistem dialog suara, platform transkripsi, dan pusat panggilan otomatis. Tidak seperti proyek yang tersedia sebelumnya, model yang diterbitkan tidak terbatas pada pengenalan bahasa Inggris dan mencakup berbagai bahasa, aksen, dan bentuk ucapan.

Akhirnya jika Anda tertarik untuk mengetahui lebih banyak tentangnya, Anda dapat memeriksa detailnya di link berikut.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Bertanggung jawab atas data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.