Mozilla Common Voice 7.0 arriveert met meer dan 13,000 uur aan spraakgegevens

onlangs NVIDIA en Mozilla hebben de release aangekondigd van de nieuwe versie van "Mozilla Common Voice 7.0" dat vertegenwoordigt meer dan 13.000 uur aan spraakgegevens van collectieve oorsprong en de toevoeging van nog eens 16 talen en dat vergeleken met de laatste update, de grootte van de materieel volume spreken in de collectie het is met bijna 50% meer gestegen.

Bovendien heeft het aantal ondersteunde talen is gestegen van 60 naar 76, inclusief voor het eerst extra ondersteuning voor de Wit-Russische, Kazachse, Oezbeekse, Bulgaarse, Armeense, Azerbeidzjaanse en Bashkir-talen.

Voor degenen die niet bekend zijn met Common Voice, ze moeten weten dat eDit is een spraakdataset met open data grootste ter wereld en is ontworpen om spraaktechnologie te democratiseren. Het wordt gebruikt door onderzoekers, academici en ontwikkelaars wereldwijd.

Medewerkers mobiliseren hun eigen gemeenschappen om spraakgegevens te doneren naar de openbare database van MCV, die iedereen kan gebruiken om spraakgestuurde technologie te trainen. Als onderdeel van de NVIDIA-samenwerking cop Mozilla Common Voice, modellen die zijn getraind in deze en andere openbare datasets zijn gratis beschikbaar via een open source toolkit genaamd NVIDIA NeMo.

El proyecto heeft tot doel gezamenlijk werk te organiseren om een ​​database met spraaksjablonen te verzamelen, rekening houdend met alle verschillende stemmen en manieren van spreken. De verzamelde database met records van verschillende uitspraken van uitdrukkingen die typisch zijn voor menselijke spraak, kan zonder beperkingen worden gebruikt in machine learning-systemen en in onderzoeksprojecten.

Volgens de auteur van de Vosk Continuous Voice Recognition Library zijn de tekortkomingen van de Common Voice-set de eenzijdigheid van het vocale materiaal (het overwicht van mannen in de twintig en dertig en het gebrek aan materiaal met de stem van vrouwen, kinderen en ouderen), het gebrek aan variatie in woordenschat (herhaling van dezelfde zinnen) en de verspreiding van mp20-opnames die gevoelig zijn voor vervorming.

Over de nieuwe versie van Common Voice 7.0

In deze nieuwe versie meer dan 75 duizend mensen namen deel bij de voorbereiding van materiaal in het Engels, dicteren 2637 uur bevestigde spraak (er waren 66 duizend deelnemers en 1686 uur).

Ook zoals we in het begin al zeiden, deze nieuwe versie introduceert 16 nieuwe talen in de Common Voice-dataset voor in totaal 76 talen, waarvan de top vijf van talen per totaal aantal uren Engels (2.630 uur), Kinyarwanda (2.260), Duits (1.040), Catalaans (920) en Esperanto (840) zijn.

De talen die het meest zijn gestegen in procenten zijn Thais (groei van bijna 20 keer, van 12 uur naar 250 uur), luganda (groei van 9 keer, van 8 uur naar 80 uur), Esperanto (groei van meer dan 7 keer, van 100 uur naar 840 uur) en Tamil (groei van ruim 8x, van 24 uur naar 220 uur). nieuwsgierig, Rwanda staat op de tweede plaats in termen van cumulatieve gegevens, waarvoor 2260 uur werd verzameld. Ze worden gevolgd door Duits (1040), Catalaans (920) en Esperanto (840). De dataset bevat nu meer dan 182,000 unieke stemmen, een groei van 25% in de gemeenschap van belastingbetalers in slechts zes maanden.

Er wordt ook vermeld dat als onderdeel van hun deelname aan het project, NVIDIA heeft kant-en-klare getrainde modellen voor machine learning-systemen voorbereid op basis van verzamelde gegevens (compatibel met PyTorch). De modellen worden gedistribueerd als onderdeel van een gratis en open NVIDIA NeMo-tool, die bijvoorbeeld al wordt gebruikt in de geautomatiseerde spraakdiensten van MTS en Sberbank.

De modellen zijn gericht op spraakherkenning, spraaksynthese en informatieverwerkingssystemen in natuurlijke taal en ze kunnen nuttig zijn voor onderzoekers bij het ontwerpen van spraakdialoogsystemen, transcriptieplatforms en geautomatiseerde callcenters. In tegenstelling tot eerder beschikbare projecten, zijn de gepubliceerde modellen niet beperkt tot Engelse herkenning en omvatten ze een verscheidenheid aan talen, accenten en spraakvormen.

Eindelijk als u er meer over wilt wetenkunt u de details in het volgende link.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: AB Internet Networks 2008 SL
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.