पाठ उपकरण के लिए Kdenlive का भाषण। यह मेरा अनुभव है

भाषण टू टेक्स्ट टूल

पिछले सप्ताह, पाब्लिनक्स ने आपको KDE प्रोजेक्ट के वीडियो संपादन टूल, Kdenlive के नए संस्करण के बारे में बताया था। जैसा कि मैंने एक बार टिप्पणी की थी, मैं ओपनशॉट को प्राथमिकता देता हूं, जिसमें सीखने की अवस्था कम है, लेकिनचूँकि मुझे इस नए संस्करण में शामिल स्पीच टू टेक्स्ट टूल में बहुत दिलचस्पी थी, इसलिए मैंने इस पर एक नज़र डालने का फैसला किया।

हालाँकि मैंने ऐसे और ऐसे विंडोज प्रोग्राम के लिए लिनक्स विकल्पों पर अपने लेखों का उचित हिस्सा लिखा है (कोई भी खुद को लिनक्स ब्लॉगर नहीं कह सकता है अगर उन्होंने उनमें से एक भी नहीं लिखा है) यह एक ऐसा दृष्टिकोण नहीं है जो मुझे पसंद है। मेरा मानना ​​है कि कार्यक्रमों की चर्चा उनकी अपनी विशेषताओं के कारण होनी चाहिए। अगर मुझे केडेनलाइव को किसी भी तरह से परिभाषित करना है, तो मैं कहूंगा कि यह उन शौक़ीन लोगों के लिए एक वीडियो संपादक है जो चाहते हैं कि उनकी रचनाएँ पेशेवर दिखें।

मैंने पहले भी कहा है और मैं उस पर कायम हूं (एक-एक करके आएं)। मुफ़्त और मुक्त स्रोत सॉफ़्टवेयर में मल्टीमीडिया कार्य के लिए लाइब्रेरी हैं जो Adobe और Blackmagic उत्पादों को महज खिलौनों की तरह बनाती हैं. बड़ी समस्या यह है कि किसी को भी इन उपकरणों को एक सरल और आकर्षक इंटरफ़ेस और पूर्ण और समझने में आसान दस्तावेज़ीकरण के साथ रखने में कोई दिलचस्पी नहीं थी। हालाँकि Kdenlive अपने लक्ष्य को प्राप्त करने से बहुत दूर है, इसके डेवलपर्स सही रास्ते पर हैं।

भाषण को पाठ में परिवर्तित करने की क्षमता के मामले में, Kdenlive रिपॉजिटरी के शस्त्रागार से दो टूल लेता है पायथन पैकेज इंडेक्स।

वोस्क एक खुला स्रोत और ऑफ़लाइन वाक् पहचान टूलकिट है।नहीं। यह 17 भाषाओं और बोलियों के लिए वाक् पहचान मॉडल प्रदान करता है: अंग्रेजी, भारतीय अंग्रेजी, जर्मन, फ्रेंच, स्पेनिश, पुर्तगाली, चीनी, रूसी, तुर्की, वियतनामी, इतालवी, डच, कैटलन, अरबी, ग्रीक, फ़ारसी और फिलिपिनो।

Kdenlive पायथन में लिखे गए मॉड्यूल के माध्यम से वोस्क मॉडल का उपयोग करता है।

हालाँकि, प्रतिलेख होना पर्याप्त नहीं है। आपको इसे वीडियो के साथ सिंक्रोनाइज़ भी करना होगा। इसके लिए हमें उपशीर्षक बनाने के लिए पायथन में एक और मॉड्यूल की आवश्यकता है।

Kdenlive जाँच करेगा कि आपने ये मॉड्यूल स्थापित कर लिए हैं। पीऐसा करने के लिए आपको पहले अपने वितरण में Python3-pip पैकेज स्थापित करना होगा और फिर कमांड चलाना होगा:

pip3 install vosk

pip3 install srt

इसके बाद, हमें ध्वनि मॉडल स्थापित करने की आवश्यकता है। इसके लिए हम Kdenlive खोलते हैं और जाते हैं सेटिंग्स Kdenlive स्पीच को टेक्स्ट में कॉन्फ़िगर करें।

मॉडल लोड करने के लिए आपके पास दो विकल्प हैं: या यहां से मॉडल डाउनलोड करें इस पृष्ठ और उन्हें मैन्युअल रूप से लोड करें (आपको पहले कस्टम मॉडेम फ़ोल्डर्स बॉक्स को जांचना होगा) या उस सूची से लिंक पेस्ट करें जो वही पृष्ठ आपको दिखाता है।

स्पीच टू टेक्स्ट टूल का उपयोग करना

  1. दृश्य मेनू में सुनिश्चित करें कि आपके पास उपशीर्षक विकल्प सक्रिय है। इसके बाद, वह वीडियो अपलोड करें जिसे आप ट्रांसक्राइब करना चाहते हैं।
  2. वीडियो को पहले वीडियो ट्रैक पर ले जाएं और उस अवधि पर नीली रेखा को स्लाइड करें जिसे आप ट्रांसक्राइब करना चाहते हैं।
  3. उपशीर्षक टैब पर क्लिक करें और फिर + चिह्न पर क्लिक करें
  4. शीर्ष पर एक संकेत जोड़ा गया है. आंख के बाईं ओर मौजूद आइकन पर क्लिक करें.
  5. ट्रांसक्रिप्शन मॉडल का चयन करें और क्या आप एक क्लिप, एक टाइमलाइन में सभी क्लिप या टाइमलाइन के एक हिस्से को ट्रांसक्राइब करना चाहते हैं। प्रोसेस पर क्लिक करें

मैंने क्लाउड टूल के मुफ़्त संस्करण के साथ स्पीच की तकनीक से तुलना की है, और यूट्यूब और पेड कोर्स प्लेटफ़ॉर्म से स्व-उपशीर्षक वीडियो देखे हैं। मुझे कहना होगा कि यह सही नहीं है, लेकिन यह बताए गए विकल्पों से बुरा भी नहीं है। समस्या तब होती है जब बोलने वालों का उच्चारण अच्छा नहीं होता या वे संगीत या किसी अन्य ध्वनि पर बोलते हैं। लेकिन, जो प्रश्न आप मुझसे पूछ रहे हैं उसकी कल्पना करते हुए, हां, इसका उपयोग किसी श्रृंखला या फिल्म को उपशीर्षक देने के लिए किया जा सकता है। हालाँकि, बताई गई सीमाओं के कारण, उन्हें हाथ से पूरा करना पड़ सकता है।

और, यदि Kdenlive के लोग अपनी बैटरियों को थोड़ा एक साथ रखें और एक अनुवाद मॉड्यूल को एकीकृत करें, तो चीजें सही होंगी।

कुछ तो है जिसे सुधारा जा सकता है. वर्तमान में, यदि आप उपशीर्षक का स्वरूप बदलना चाहते हैं, तो आपको कोड डालना होगा। और, उन्हें निर्यात करने का कोई तरीका नहीं है। आप उन्हें केवल वीडियो में एम्बेडेड देख पाएंगे।

लेकिन, जैसा कि मैंने ऊपर कहा, परियोजना निस्संदेह सही रास्ते पर है।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: एबी इंटरनेट नेटवर्क 2008 SL
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

  1.   गेब्रियल डी लुका कहा

    ऊपर दाईं ओर स्थित संपादन बॉक्स में आप सभी टेक्स्ट का चयन कर सकते हैं, इसे क्लिपबोर्ड पर कॉपी कर सकते हैं और फिर जहां चाहें वहां पेस्ट कर सकते हैं