Mozilla Common Voice 7.0, 13,000 saatten fazla ses verisi ile geliyor

geçenlerde NVIDIA ve Mozilla, "Mozilla Common Voice 7.0"ın yeni sürümünün yayınlandığını duyurdu 13.000 saatten fazla toplu kaynaklı ses verisini ve 16 dilin daha eklenmesini temsil eden ve son güncelleme ile karşılaştırıldığında, boyutunun malzeme hacmi koleksiyonda konuşma neredeyse %50 daha fazla arttı.

Buna ek olarak, desteklenen dil sayısı 60'tan 76'ya yükseldiBelarusça, Kazakça, Özbekçe, Bulgarca, Ermenice, Azerice ve Başkurt dilleri için ilk kez ek destek dahil.

Common Voice'a aşina olmayanlar, şunu bilmelidirler ki, eBu bir açık veri ses veri setidir. dünyanın en büyüğü ve ses teknolojisini demokratikleştirmek için tasarlandı. Araştırmacılar, akademisyenler ve geliştiriciler tarafından kullanılır. dünyanın her yerinden.

Çalışanlar ses verilerini bağışlamak için kendi topluluklarını harekete geçiriyor MCV'nin herkesin sesle etkinleştirilmiş teknolojiyi eğitmek için kullanabileceği genel veritabanına. NVIDIA c işbirliğinin bir parçası olarakMozilla Common Voice'ta, bu konuda eğitilmiş modeller ve diğer genel veri kümeleri ücretsiz olarak mevcuttur NVIDIA NeMo adlı açık kaynaklı bir araç seti aracılığıyla.

proje ses şablonlarından oluşan bir veri tabanı biriktirmek için ortak çalışma düzenlemeyi amaçlıyor, tüm ses çeşitlerini ve konuşma biçimlerini dikkate alarak. İnsan konuşmasına özgü ifadelerin farklı telaffuzlarının kayıtlarını içeren birikmiş veri tabanı, makine öğrenimi sistemlerinde ve araştırma projelerinde kısıtlama olmaksızın kullanılabilir.

Vosk sürekli konuşma tanıma kütüphanesinin yazarına göre, Ortak Ses setinin eksiklikleri, vokal materyalinin tek taraflılığıdır (20'li ve 30'lu yaşlarda erkeklerin baskınlığı ve kadın, çocuk sesiyle materyal eksikliği). ve yaşlı), kelime dağarcığı değişkenliğinin olmaması (aynı cümlelerin tekrarı) ve bozulmaya meyilli MP3 kayıtlarının dağılımı.

Common Voice 7.0'ın yeni sürümü hakkında

Bu yeni versiyonda 75 binden fazla kişi katıldı İngilizce materyallerin hazırlanmasında, 2637 saat doğrulanmış konuşma dikte etme (66 bin katılımcı ve 1686 saat vardı).

Ayrıca başta da belirttiğimiz gibi, bu yeni sürüm 16 yeni dil sunuyor Toplam saate göre ilk beş dilin İngilizce (76 saat), Kinyarwanda (2.630), Almanca (2.260), Katalanca (1.040) ve Esperanto (920) olduğu toplam 840 dil için Common Voice veri kümesine.

Yüzde olarak en fazla artış gösteren diller Tayca (20 saatten 12 saate kadar neredeyse 250 kat büyüme), luganda (9 saatten 8 saate kadar 80 kat büyüme), Esperanto (7 saatten 100 saate 840 kattan fazla büyüme) ve Tamilce (8 saatten 24 saate 220 kattan fazla büyüme). Merakla, Ruanda kümülatif veriler açısından ikinci sırada, bunun için 2260 saat toplanmıştır. Bunları Almanca (1040), Katalanca (920) ve Esperanto (840) izlemektedir. Veri seti şimdi 182,000'den fazla benzersiz sese sahip, vergi mükellefi topluluğunda sadece altı ayda %25'lik bir büyüme.

Ayrıca projeye katılımlarının bir parçası olarak, NVIDIA, makine öğrenimi sistemleri için kullanıma hazır eğitimli modeller hazırladı toplanan verilere dayanmaktadır (PyTorch ile uyumlu). Modeller, örneğin MTS ve Sberbank'ın otomatik ses hizmetlerinde zaten kullanılan ücretsiz ve açık bir NVIDIA NeMo aracının parçası olarak dağıtılır.

modeller doğal dilde konuşma tanıma, konuşma sentezi ve bilgi işleme sistemlerine yönelik ve sesli diyalog sistemlerinin, deşifre platformlarının ve otomatik çağrı merkezlerinin tasarımında araştırmacılara faydalı olabilirler. Daha önce mevcut olan projelerin aksine, yayınlanan modeller İngilizce tanıma ile sınırlı değildir ve çeşitli dilleri, aksanları ve konuşma biçimlerini kapsar.

Nihayet onun hakkında daha fazla bilgi edinmekle ilgileniyorsanayrıntılarını kontrol edebilirsiniz. aşağıdaki bağlantı.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: AB Internet Networks 2008 SL
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.