Mozilla Common Voice 7.0 ra mắt với hơn 13,000 giờ dữ liệu thoại

Gần đây NVIDIA và Mozilla thông báo phát hành phiên bản mới của "Mozilla Common Voice 7.0" đại diện cho hơn 13.000 giờ dữ liệu thoại có nguồn gốc chung và việc bổ sung 16 ngôn ngữ khác và so với bản cập nhật cuối cùng, Kích thước của khối lượng vật liệu nói trong bộ sưu tập nó đã tăng thêm gần 50%.

Bên cạnh đó, số lượng ngôn ngữ được hỗ trợ đã tăng từ 60 lên 76, bao gồm hỗ trợ bổ sung cho các ngôn ngữ Belarus, Kazakhstan, Uzbek, Bulgaria, Armenia, Azerbaijan và Bashkir lần đầu tiên.

Đối với những người không quen thuộc với Common Voice, họ nên biết rằng đĐây là tập dữ liệu thoại dữ liệu mở lớn nhất trên thế giới và được thiết kế để dân chủ hóa công nghệ giọng nói. Nó được sử dụng bởi các nhà nghiên cứu, học giả và nhà phát triển trên thế giới.

Nhân viên huy động cộng đồng của riêng họ để quyên góp dữ liệu thoại vào cơ sở dữ liệu công khai của MCV, mà bất kỳ ai cũng có thể sử dụng để đào tạo công nghệ hỗ trợ giọng nói. Là một phần của sự hợp tác NVIDIA ctrên Mozilla Common Voice, các mô hình được đào tạo về điều này và các tập dữ liệu công khai khác được cung cấp miễn phí thông qua một bộ công cụ mã nguồn mở có tên là NVIDIA NeMo.

Dự án nhằm tổ chức công việc chung để tích lũy cơ sở dữ liệu về các mẫu giọng nói, có tính đến tất cả các loại giọng nói và cách nói. Cơ sở dữ liệu tích lũy với các bản ghi về cách phát âm khác nhau của các cụm từ điển hình trong giọng nói của con người có thể được sử dụng mà không bị hạn chế trong các hệ thống học máy và trong các dự án nghiên cứu.

Theo tác giả của Thư viện nhận dạng giọng nói liên tục Vosk, khuyết điểm của bộ Common Voice là chất liệu thanh âm một chiều (nam giới ở độ tuổi 20-30 chiếm ưu thế và thiếu chất liệu với giọng nói của phụ nữ, trẻ em). và người già), thiếu sự đa dạng về từ vựng (sự lặp lại của các cụm từ giống nhau) và việc phân phối các bản ghi âm MP3 dễ bị biến dạng.

Giới thiệu về phiên bản mới của Common Voice 7.0

Trong phiên bản mới này hơn 75 nghìn người đã tham gia trong quá trình chuẩn bị tài liệu bằng tiếng Anh, đọc 2637 giờ bài phát biểu được xác nhận (có 66 nghìn người tham gia và 1686 giờ).

Cũng như chúng tôi đã đề cập ở phần đầu, phiên bản mới này giới thiệu 16 ngôn ngữ mới vào bộ dữ liệu Tiếng nói chung cho tổng cộng 76 ngôn ngữ, trong đó năm ngôn ngữ hàng đầu tính theo tổng số giờ là tiếng Anh (2.630 giờ), Kinyarwanda (2.260), Đức (1.040), Catalan (920) và Esperanto (840).

Các ngôn ngữ có tỷ lệ phần trăm tăng nhiều nhất là tiếng Thái (tăng trưởng gần 20 lần, từ 12 giờ đến 250 giờ), luganda (tăng trưởng gấp 9 lần, từ 8 giờ đến 80 giờ), esperanto (tăng hơn 7 lần, từ 100 giờ đến 840 giờ) và Tamil (tăng trưởng hơn 8x, từ 24 giờ đến 220 giờ). Thật kỳ lạ, Rwanda đứng thứ hai về dữ liệu tích lũy, trong đó 2260 giờ đã được thu thập. Tiếp theo là tiếng Đức (1040), Catalan (920) và Esperanto (840). Bộ dữ liệu hiện có hơn 182,000 giọng nói độc đáo, tăng trưởng 25% trong cộng đồng người nộp thuế chỉ trong sáu tháng.

Nó cũng được đề cập rằng như một phần của sự tham gia của họ vào dự án, NVIDIA đã chuẩn bị các mô hình được đào tạo sẵn sàng để sử dụng cho các hệ thống học máy dựa trên dữ liệu thu thập được (tương thích với PyTorch). Các mô hình này được phân phối như một phần của công cụ NVIDIA NeMo miễn phí và mở, chẳng hạn, công cụ này đã được sử dụng trong các dịch vụ thoại tự động của MTS và Sberbank.

Các mô hình là nhằm vào hệ thống nhận dạng giọng nói, tổng hợp giọng nói và xử lý thông tin bằng ngôn ngữ tự nhiên và chúng có thể hữu ích cho các nhà nghiên cứu trong việc thiết kế hệ thống đối thoại bằng giọng nói, nền tảng phiên âm và trung tâm cuộc gọi tự động. Không giống như các dự án có sẵn trước đây, các mô hình đã xuất bản không giới hạn ở nhận dạng tiếng Anh và bao gồm nhiều ngôn ngữ, trọng âm và hình thức nói.

Cuối cùng nếu bạn muốn biết thêm về nó, bạn có thể kiểm tra các chi tiết trong liên kết theo dõi.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.