Mozilla Common Voice 7.0 מגיע עם יותר מ -13,000 שעות של נתוני קול

לאחרונה NVIDIA ומוזילה הודיעו על השקת הגרסה החדשה של "Mozilla Common Voice 7.0" המייצג יותר מ -13.000 שעות של נתוני קול ממוצא קולקטיבי ותוספת של 16 שפות נוספות וזה בהשוואה לעדכון האחרון, גודל ה נפח החומר מדבר באוסף הוא גדל בכמעט 50% יותר.

בנוסף, מספר השפות הנתמכות עלה מ -60 ל -76, כולל תמיכה נוספת בשפות בלארוסית, קזחית, אוזבקית, בולגרית, ארמנית, אזרבייג'נית ובשקיר.

למי שלא מכיר את קול רגיל, הם צריכים לדעת ש- eזו מערכת נתונים קולית של נתונים פתוחים הגדולה בעולם ונועדה לדמוקרטיזציה של טכנולוגיית הקול. הוא משמש חוקרים, אנשי אקדמיה ומפתחים ברחבי העולם.

עובדים מגייסים קהילות משלהם לתרום נתוני קול למאגר המידע הציבורי של MCV, שכל אחד יכול להשתמש בו כדי להכשיר טכנולוגיה מותאמת לקול. כחלק משיתוף הפעולה של NVIDIA גב- Mozilla Common Voice, דגמים שהוכשרו במערכות נתונים ציבוריות אלה ואחרות זמינים בחינם באמצעות ערכת כלים פתוחה בשם NVIDIA NeMo.

proyecto אל שואפת לארגן עבודה משותפת לצבירת מסד נתונים של תבניות קול, תוך התחשבות בכל מגוון הקולות ודרכי הדיבור. ניתן להשתמש במאגר הנתונים המצטבר עם רשומות של ביטויים שונים של ביטויים אופייניים לדיבור אנושי ללא הגבלות במערכות למידת מכונה ובפרויקטים מחקריים.

לדברי כותב הספרייה לזיהוי קולי קבוע של ווסק, החסרונות של מערכת הקול הנפוץ הם חד צדדיות של החומר הקולי (דומיננטיות של גברים בשנות ה -20 וה -30 לחייהם והיעדר חומר בקול של נשים, ילדים וקשישים), חוסר השתנות באוצר המילים (חזרה על אותם ביטויים) והפצת הקלטות MP3 המועדות לעיוות.

מידע על הגרסה החדשה של Common Voice 7.0

בגרסה החדשה הזו יותר מ -75 אלף איש השתתפו בהכנת חומרים באנגלית, המכתיבים 2637 שעות דיבור מאושרות (היו 66 אלף משתתפים ו -1686 שעות).

כמו שהזכרנו בהתחלה, גרסה חדשה זו מציגה 16 שפות חדשות למערך הנתונים של Common Voice הכולל 76 שפות, מתוכן חמש השפות המובילות לפי שעות כולל הן אנגלית (2.630 שעות), קיניארוונדה (2.260), גרמנית (1.040), קטלאנית (920) ואספרנטו (840).

השפות שהגדילו הכי הרבה באחוזים הן תאילנדיות (גידול של כמעט 20 פעמים, מ 12 שעות ל 250 שעות), luganda (גידול של 9 פעמים, מ 8 שעות ל 80 שעות), אֶסְפֵּרַנְטוֹ (גידול של יותר מ 7 פעמים, מ 100 שעות ל 840 שעות) וטמילית (גידול של יותר מ 8x, מ 24 שעות ל 220 שעות). באופן מוזר, רואנדה נמצאת במקום השני מבחינת הנתונים המצטברים, שעבורם נאספו 2260 שעות. אחריהם גרמנית (1040), קטלאנית (920) ואספרנטו (840). מערך הנתונים כולל כעת למעלה מ -182,000 קולות ייחודיים, גידול של 25% בקהילת משלם המסים תוך שישה חודשים בלבד.

כמו כן מוזכר כי במסגרת השתתפותם בפרויקט, NVIDIA הכינה מודלים מוכנים לשימוש למערכות למידת מכונה מבוסס על נתונים שנאספו (תואם ל- PyTorch). הדגמים מופצים כחלק מכלי NVIDIA NeMo חינם ופתוח, אשר, למשל, כבר בשימוש בשירותי הקול האוטומטיים של MTS ו- Sberbank.

הדגמים הם מכוון לזיהוי דיבור, סינתזת דיבור ומערכות עיבוד מידע בשפה טבעית והם יכולים להיות שימושיים לחוקרים בעיצוב מערכות דיאלוג קולי, פלטפורמות תמלול ומרכזי שיחות אוטומטיים. שלא כמו פרויקטים שהיו קיימים בעבר, המודלים שפורסמו אינם מוגבלים לזיהוי אנגלי ומכסים מגוון שפות, מבטאים וצורות דיבור.

בסופו של דבר אם אתה מעוניין לדעת יותר על כך, אתה יכול לבדוק את הפרטים ב הקישור הבא.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי על הנתונים: AB Internet Networks 2008 SL
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.