Mozilla Common Voice 7.0 tiba dengan lebih dari 13,000 jam data suara

Baru-baru ini NVIDIA dan Mozilla mengumumkan peluncuran versi baru "Mozilla Common Voice 7.0" yang mewakili lebih dari 13.000 jam data suara asal kolektif dan penambahan 16 bahasa lain dan itu berbanding dengan kemas kini terakhir, saiz isi padu bahan bercakap dalam koleksi ia telah meningkat hampir 50% lebih banyak.

Selain itu, bilangan bahasa yang disokong telah meningkat dari 60 menjadi 76, termasuk sokongan tambahan untuk bahasa Belarus, Kazakh, Uzbek, Bulgaria, Armenia, Azerbaijan, dan Bashkir untuk pertama kalinya.

Bagi mereka yang tidak biasa dengan Common Voice, mereka harus mengetahui bahawa eIni adalah kumpulan data suara data terbuka terbesar di dunia dan direka untuk mendemokrasikan teknologi suara. Ia digunakan oleh penyelidik, akademik dan pemaju di seluruh dunia.

Pekerja menggerakkan komuniti mereka sendiri untuk menyumbangkan data suara ke pangkalan data awam MCV, yang boleh digunakan oleh sesiapa sahaja untuk melatih teknologi yang menggunakan suara. Sebagai sebahagian daripada kerjasama NVIDIA cpada Suara Bersama Mozilla, model yang dilatih dalam ini dan kumpulan data awam lain boleh didapati secara percuma melalui toolkit sumber terbuka yang dipanggil NVIDIA NeMo.

Projek itu bertujuan untuk mengatur kerja bersama untuk mengumpulkan pangkalan data templat suara, dengan mengambil kira semua jenis suara dan cara bercakap. Pangkalan data terkumpul dengan catatan pengucapan yang berbeza dari frasa khas ucapan manusia dapat digunakan tanpa batasan dalam sistem pembelajaran mesin dan dalam projek penyelidikan.

Menurut pengarang perpustakaan pengenalan ucapan berterusan Vosk, kekurangan kumpulan Suara Biasa adalah satu sisi bahan vokal (dominasi lelaki berusia 20-an dan 30-an dan kekurangan bahan dengan suara wanita, kanak-kanak dan warga tua), kekurangan kebolehubahan perbendaharaan kata (pengulangan frasa yang sama) dan penyebaran rakaman MP3 terdedah kepada penyelewengan.

Mengenai versi baru Common Voice 7.0

Dalam versi baru ini lebih daripada 75 ribu orang mengambil bahagian dalam penyediaan bahan dalam bahasa Inggeris, menyatakan 2637 jam ucapan yang disahkan (terdapat 66 ribu peserta dan 1686 jam).

Seperti yang kita sebutkan di awal, versi baru ini memperkenalkan 16 bahasa baru ke dalam kumpulan data Common Voice untuk sejumlah 76 bahasa, yang mana lima bahasa teratas dengan jumlah jam adalah bahasa Inggeris (2.630 jam), Kinyarwanda (2.260), Jerman (1.040), Catalan (920) dan Esperanto (840).

Bahasa yang paling banyak meningkat adalah bahasa Thai (pertumbuhan hampir 20 kali ganda, dari 12 jam hingga 250 jam), luganda (pertumbuhan 9 kali ganda, dari 8 jam hingga 80 jam), esperanto (pertumbuhan lebih dari 7 kali, dari 100 jam hingga 840 jam) dan bahasa Tamil (pertumbuhan melebihi 8x, dari 24 jam hingga 220 jam). Dengan rasa ingin tahu, Rwanda berada di kedudukan kedua dari segi data kumulatif, yang mana 2260 jam dikumpulkan. Mereka diikuti oleh Jerman (1040), Catalan (920) dan Esperanto (840). Set data kini menampilkan lebih dari 182,000 suara unik, pertumbuhan 25% dalam komuniti pembayar cukai hanya dalam enam bulan.

Juga disebutkan bahawa sebagai sebahagian daripada penyertaan mereka dalam projek ini, NVIDIA telah menyediakan model terlatih yang siap digunakan untuk sistem pembelajaran mesin berdasarkan data yang dikumpulkan (serasi dengan PyTorch). Model-model itu diedarkan sebagai sebahagian daripada alat NVIDIA NeMo percuma dan terbuka, yang, misalnya, sudah digunakan dalam perkhidmatan suara automatik MTS dan Sberbank.

Modelnya adalah bertujuan untuk pengecaman pertuturan, sintesis pertuturan dan sistem pemprosesan maklumat dalam bahasa semula jadi dan mereka boleh berguna bagi penyelidik dalam reka bentuk sistem dialog suara, platform transkripsi, dan pusat panggilan automatik. Tidak seperti projek yang ada sebelumnya, model yang diterbitkan tidak terhad kepada pengiktirafan bahasa Inggeris dan merangkumi pelbagai bahasa, loghat dan bentuk ucapan.

Akhirnya sekiranya anda berminat untuk mengetahui lebih lanjut mengenainya, anda boleh menyemak butiran di pautan berikut.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab untuk data: AB Internet Networks 2008 SL
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.