केडनलाईव्हचे भाषण-ते-मजकूर साधन हा माझा अनुभव आहे

मजकूर साधन भाषण

गेल्या आठवड्यात, पॅब्लिनिक्सने तुम्हाला केडीईलिव्हच्या नवीन आवृत्तीबद्दल सांगितले, केडीई प्रोजेक्टमधील व्हिडिओ संपादन साधन. एकदा मी टिप्पणी केल्याप्रमाणे, मी ओपनशॉटला प्राधान्य देतो ज्यामध्ये कमी शिकण्याची वक्र आहे, परंतुही नवीन आवृत्ती समाविष्ट असलेल्या स्पीच-टू-टेक्स्ट टूलमध्ये मला खूप रस होता, म्हणून मी त्याकडे लक्ष देण्याचा निर्णय घेतला.

जरी मी या किंवा त्या विंडोज प्रोग्रामच्या लिनक्स पर्यायावर माझा लेख लिहिला आहे (त्यापैकी एखादे त्यांनी लिहिले नाही तर कोणीही स्वत: ला लिनक्स ब्लॉगर म्हणू शकत नाही), हा मला आवडलेला दृष्टीकोन नाही. मला वाटते की प्रोग्राम्सबद्दल त्यांच्या स्वत: च्या वैशिष्ट्यांनुसारच बोलले पाहिजे. जर मला केडनलाइव्हला कोणत्याही प्रकारे परिभाषित करायचे असेल तर मी असे म्हणेन की हे छंद करणार्‍यांसाठी एक व्हिडिओ संपादक आहे ज्यांना त्यांची निर्मिती व्यावसायिक दिसण्याची इच्छा आहे.

मी भूतकाळात सांगितले आहे आणि मी ते ठेवतो (एक-एक करून) फ्री आणि ओपन सोर्स सॉफ्टवेयरमध्ये मल्टीमीडिया कार्यासाठी लायब्ररी आहेत ज्यामुळे अ‍ॅडोब आणि ब्लॅकमॅजिक उत्पादने केवळ खेळण्यासारखे दिसतात. मोठी समस्या अशी आहे की एखाद्यास ही साधने सोपी आणि आकर्षक इंटरफेससह एकत्र ठेवण्यात रस नव्हता आणि दस्तऐवजीकरण पूर्ण आणि समजण्यास सोपे आहे. केडनलाइव्ह आपले ध्येय गाठण्यापासून दूर असले तरी, त्याचे विकसक योग्य मार्गावर आहेत.

भाषणाला टेक्स्टमध्ये रूपांतरित करण्याच्या क्षमतेच्या बाबतीत, केडनलाईव्ह रिपॉझिटरीच्या शस्त्रागारातून दोन साधने वापरतात पायथन पॅकेज निर्देशांक.

व्हॉस्क एक मुक्त स्रोत आणि ऑफलाइन स्पीच रिकग्निशन टूलकिट आहेएन. हे 17 भाषा आणि बोलीभाषांसाठी भाषण ओळखण्याचे मॉडेल ऑफर करते: इंग्रजी, भारतीय इंग्रजी, जर्मन, फ्रेंच, स्पॅनिश, पोर्तुगीज, चीनी, रशियन, तुर्की, व्हिएतनामी, इटालियन, डच, कॅटलान, अरबी, ग्रीक, फारसी आणि फिलिपिनो.

केडनलाइव्ह पायथनमध्ये लिहिलेल्या मॉड्यूलद्वारे व्हॉस्क मॉडेल वापरते.

तथापि, उतारे घेणे पुरेसे नाही. आपल्याला व्हिडिओसह संकालित देखील करावे लागेल. यासाठी आम्हाला उपशीर्षके तयार करण्यासाठी पायथॉनमध्ये आणखी एक मॉड्यूल आवश्यक आहे.

केडनलाइव्ह आपल्याकडे ही मॉड्यूल्स स्थापित केली असल्याचे तपासेल. पीहे करण्यासाठी आपल्याला प्रथम आपल्या वितरणावर पायथॉन 3-पिप पॅकेज स्थापित करणे आणि नंतर आदेश चालविणे आवश्यक आहे:

pip3 install vosk

pip3 install srt

पुढे, आम्हाला व्हॉईस मॉडेल स्थापित करावे लागतील. यासाठी आम्ही केडनलाईव्ह उघडतो आणि आम्ही जात आहोत सेटिंग्ज केडनालिव्ह भाषण मजकूरास कॉन्फिगर करते.

मॉडेल्स लोड करण्यासाठी आपल्याकडे दोन पर्याय आहेत: किंवा येथून मॉडेल डाउनलोड करा हे पृष्ठ आणि स्वहस्ते लोड करा (आपण प्रथम सानुकूल मॉडेम फोल्डर्स बॉक्स तपासणे आवश्यक आहे) किंवा त्या सूचीतून दुवा पेस्ट करा जो आपल्याला समान पृष्ठ दर्शवितो.

स्पीच टू टेक्स्ट टूल वापरणे

  1. आपल्याकडे उपशीर्षक पर्याय सक्रिय असल्याचे पहा मेनूमध्ये सुनिश्चित करा. पुढे, आपण कॉपी करू इच्छित व्हिडिओ अपलोड करा.
  2. प्रथम व्हिडिओ ट्रॅकवर व्हिडिओ हलवा आणि आपण कॉपी करू इच्छित अवधीसह निळी ओळ सरकवा.
  3. उपशीर्षके टॅब वर क्लिक करा आणि नंतर + चिन्हावर
  4. शीर्षस्थानी एक संकेत जोडला आहे. डोळ्याच्या डाव्या चिन्हावर क्लिक करा.
  5. लिप्यंतरण मॉडेल निवडा आणि आपण एखादी क्लिप, टाइमलाइनमधील सर्व क्लिप किंवा टाइमलाइनच्या भागाची लिप्यंतरण करू इच्छित असाल. प्रक्रिया वर क्लिक करा

मी स्पीचची तुलना टेकशी क्लाऊड टूलच्या विनामूल्य आवृत्तीशी केली आणि मी यूट्यूब व पेड कोर्स प्लॅटफॉर्मवरील स्व-मथळे व्हिडिओ पाहिले आहेत. मला असे म्हणायचे आहे की ते परिपूर्ण नाही, परंतु ते नमूद केलेल्या विकल्पांपेक्षा वाईट नाही. जेव्हा त्यांना बोलण्याची क्षमता चांगली नसते किंवा संगीत किंवा इतर काही आवाज येत नसते तेव्हा त्याला त्रास होतो. परंतु, ते मला विचारत असलेल्या प्रश्नाची कल्पना करून होय, याचा उपयोग मालिका किंवा चित्रपट उपशीर्षक करण्यासाठी केला जाऊ शकतो. जरी, दर्शविलेल्या मर्यादांमुळे, ते हातांनी पूर्ण केले जाऊ शकतात.

आणि, केडनलाइव्ह मधील लोकांनी बॅटरी थोडी लावली आणि भाषांतर मॉड्यूल समाकलित केले तर गोष्ट परिपूर्ण होईल.

अशी एक गोष्ट आहे जी सुधारली जाऊ शकते. आज, आपण उपशीर्षकांचे स्वरूप बदलू इच्छित असल्यास आपल्याला कोड घालावा लागेल. आणि, त्यांना निर्यात करण्याचा कोणताही मार्ग नाही. आपण त्यांना व्हिडिओमध्ये एम्बेड केलेलेच पाहण्यास सक्षम असाल.

परंतु, मी वर म्हटल्याप्रमाणे, प्रकल्प योग्य मार्गावर आहे यात काही शंका नाही.


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटासाठी जबाबदार: AB इंटरनेट नेटवर्क 2008 SL
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.

  1.   गॅब्रिएल डी लुका म्हणाले

    वरील उजवीकडील संपादन बॉक्समध्ये तुम्ही सर्व मजकूर निवडू शकता, क्लिपबोर्डवर कॉपी करू शकता आणि नंतर तुम्हाला पाहिजे तेथे पेस्ट करू शकता.