Kdenlive's Speech to Text Tool. Đây là kinh nghiệm của tôi

Công cụ chuyển giọng nói thành văn bản

Tuần trước, Pablinux đã nói với bạn về phiên bản mới của Kdenlive, công cụ chỉnh sửa video từ dự án KDE. Như tôi đã từng nhận xét, tôi thích OpenShot có đường cong học tập thấp hơn, nhưngVì tôi rất quan tâm đến công cụ chuyển giọng nói thành văn bản mà phiên bản mới này kết hợp, tôi quyết định xem xét nó.

Mặc dù tôi đã viết bài chia sẻ của mình về các lựa chọn thay thế Linux cho chương trình này hoặc chương trình Windows đó (Không ai có thể tự gọi mình là một blogger Linux nếu họ không viết một trong số đó), đây không phải là cách tiếp cận mà tôi thích. Tôi nghĩ rằng các chương trình nên được nói về đặc điểm riêng của chúng. Nếu tôi phải định nghĩa Kdenlive theo bất kỳ cách nào, tôi sẽ nói rằng nó là một trình chỉnh sửa video dành cho những người có sở thích muốn sáng tạo của họ trông chuyên nghiệp.

Tôi đã nói trong quá khứ và tôi giữ nó (đến từng người một) rằng phần mềm mã nguồn mở và miễn phí có các thư viện dành cho công việc đa phương tiện làm cho các sản phẩm của Adobe và Blackmagic trông giống như những món đồ chơi đơn thuần. Vấn đề lớn là không ai quan tâm đến việc kết hợp các công cụ này với nhau với giao diện đơn giản và hấp dẫn và tài liệu đầy đủ và dễ hiểu. Mặc dù Kdenlive còn lâu mới đạt được mục tiêu nhưng các nhà phát triển của nó đang đi đúng hướng.

Trong trường hợp có khả năng chuyển đổi giọng nói thành văn bản, Kdenlive sử dụng hai công cụ từ kho vũ khí của kho lưu trữ Chỉ mục gói Python.

Vosk là một bộ công cụ nhận dạng giọng nói nguồn mở và ngoại tuyếnn. Nó cung cấp các mô hình nhận dạng giọng nói cho 17 ngôn ngữ và phương ngữ: tiếng Anh, tiếng Anh Ấn Độ, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Trung, tiếng Nga, tiếng Thổ Nhĩ Kỳ, tiếng Việt, tiếng Ý, tiếng Hà Lan, tiếng Catalan, tiếng Ả Rập, tiếng Hy Lạp, tiếng Farsi và tiếng Philippines.

Kdenlive sử dụng các mô hình Vosk thông qua một mô-đun được viết bằng Python.

Tuy nhiên, có bảng điểm là chưa đủ. Bạn cũng phải đồng bộ hóa nó với video. Đối với điều này, chúng tôi cần một mô-đun khác bằng Python để tạo phụ đề.

Kdenlive sẽ kiểm tra xem bạn đã cài đặt các mô-đun này chưa. PĐể thực hiện việc này, trước tiên bạn cần cài đặt gói python3-pip trên bản phân phối của mình và sau đó chạy các lệnh:

pip3 install vosk

pip3 install srt

Tiếp theo, chúng ta phải cài đặt các mô hình giọng nói. Đối với điều này, chúng tôi mở Kdenlive và chúng tôi sẽ Cài đặt Định cấu hình Kdenlive Speech thành Text.

Để tải các mô hình, bạn có hai tùy chọn: hoặc tải xuống các mô hình từ trang này và tải chúng theo cách thủ công (Trước tiên, bạn phải chọn hộp Thư mục modem tùy chỉnh) hoặc dán liên kết từ danh sách hiển thị cho bạn cùng trang đó.

Sử dụng công cụ Chuyển giọng nói thành văn bản

  1. Đảm bảo trong menu Xem bạn đã kích hoạt tùy chọn phụ đề. Tiếp theo, tải video bạn muốn phiên âm lên.
  2. Di chuyển video đến đoạn video đầu tiên và trượt đường màu xanh lam dọc theo thời lượng bạn muốn phiên âm.
  3. Nhấp vào tab phụ đề, sau đó nhấp vào dấu +
  4. Ở trên cùng, một gợi ý được thêm vào. Nhấp vào biểu tượng bên trái của con mắt.
  5. Chọn kiểu phiên âm và nếu bạn muốn phiên âm một clip, hãy chuyển tất cả các clip trong dòng thời gian hoặc một phần của dòng thời gian. Nhấp vào Xử lý

Tôi đã so sánh Speech to tech với phiên bản miễn phí của công cụ đám mây và đã xem các video tự phụ đề từ Youtube và các nền tảng khóa học trả phí. Tôi phải nói rằng nó không hoàn hảo, nhưng nó không tệ hơn các lựa chọn thay thế đã đề cập. Anh ta gặp vấn đề khi những người nói không có khả năng chuyển hướng tốt hoặc làm như vậy qua âm nhạc hoặc một số âm thanh khác. Nhưng, tưởng tượng câu hỏi mà họ đang hỏi tôi, vâng, nó có thể được sử dụng để làm phụ đề cho một bộ truyện hoặc một bộ phim. Mặc dù, do những hạn chế được chỉ ra, chúng có thể phải được hoàn thành bằng tay.

Và, nếu những người ở Kdenlive lắp pin vào một chút và tích hợp một mô-đun dịch, mọi thứ sẽ trở nên hoàn hảo.

Có một cái gì đó có thể được cải thiện. Ngày nay, nếu bạn muốn thay đổi hình thức của phụ đề, bạn sẽ phải chèn mã. Và, không có cách nào để xuất chúng. Bạn sẽ chỉ có thể thấy chúng được nhúng trong video.

Nhưng, như tôi đã nói ở trên, chắc chắn dự án đang đi đúng hướng.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: AB Internet Networks 2008 SL
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

  1.   gabriel de luca dijo

    Trong hộp chỉnh sửa ở bên phải phía trên, bạn có thể chọn tất cả văn bản, sao chép văn bản đó vào khay nhớ tạm rồi dán vào bất cứ đâu bạn muốn