लिनक्ससाठी उत्तम उच्चार ओळखण्याची साधने

आवाज ओळख पार्श्वभूमी

ज्यांना या प्रकारच्या प्रवेशयोग्यता पद्धती आवश्यक आहेत त्यांच्यासाठी ही एकमेव पद्धत असून याव्यतिरिक्त व्हॉइसचा वापर आमच्या डिव्हाइसशी संवाद साधण्यासाठी केला जातो. कोणत्याही परिस्थितीत, मजकूर लिहून बोलणे किंवा आमच्या सिस्टममध्ये फक्त व्हॉईस कमांड प्रविष्ट करणे इतके आरामदायक आहे जेणेकरून ते त्यांच्या हातांचा उपयोग न करता काही प्रकारचे ऑपरेशन करतात. समस्या अशी आहे उच्चार ओळख ते इंजिनवर आधारित आहेत जे भाषण ओळखण्यासाठी गणितीय अल्गोरिदम वापरतात आणि 100% विश्वसनीय नाहीत.

तांत्रिक प्रगती वाढत्या प्रमाणात आणत आहेत विश्वसनीयता परिपूर्णतेकडे, आणि कृत्रिम बुद्धिमत्ता आणि मोठ्या डेटा सिस्टम देखील भाषण ओळख कार्यक्रमांना मोठ्या प्रमाणात सुधारण्यात खूप मदत करत आहेत. या प्रणाली जास्तीत जास्त सुधारण्यासाठी अलीकडे बरेच प्रयत्न केले जात आहेत आणि नियंत्रण सुधारण्यासाठी आणि भविष्यातील इंटरफेस बनविण्यासाठी बरेच अभ्यास यावर लक्ष केंद्रित करत आहेत. हे लक्षात ठेवा की सध्याचे इंटरफेस लोकांसाठी कमी नैसर्गिक आहेत आणि व्हॉईसपेक्षा कमी वेगवान आहेत.

व्हॉईस रिकग्निशन सिस्टमची येत्या काही वर्षांत सुमारे 10 अब्ज डॉलर्सची किंमत असेल आणि म्हणूनच मोठ्या कंपन्या Appleपलची सिरी, मायक्रोसॉफ्टच्या कोर्टाना किंवा सहाय्यकांच्या विकासावर लक्ष केंद्रित करत आहेत. लिनक्ससाठी मायक्रॉफ्ट, forमेझॉन इको, गूगल होम किंवा घरासाठी Appleपल होमपॉड यासारख्या लोकप्रिय आणि वारंवार उत्पादने बनण्याबरोबरच कनेक्ट केलेल्या कारमध्ये अत्याधुनिक व्हॉइस रेकग्निशन सिस्टम एकत्रित करणे.

ते म्हणाले, Linux साठी आमची भाषण ओळखण्याच्या साधनांची सूची ते आहेत:

  • ज्युलियस: बर्‍याच शब्दसंग्रहांसह एक सतत सतत भाषण ओळख इंजिन आहे.
  • डीपस्पीच: बाडूच्या डीपस्पीक आर्किटेक्चरची टेन्सर एफएलची अंमलबजावणी आहे.
  • सायमन: बर्‍यापैकी लवचिक भाषण ओळख सॉफ्टवेअर.
  • काळडी: भाषण ओळख संशोधनासाठी एक सी ++ डिझाइन टूलकिट आहे.
  • सीएमयूएसफिन्क्स: या प्रकरणात हे मोबाइल अॅप्स आणि सर्व्हरसाठी व्हॉईस रेकग्निशन इंजिन आहे.
  • डीपस्पिक.पायथॉन: पायथनसह डीपस्पीचची अंमलबजावणी आणि बायू वार्प-सीटीसी वापरणे.

आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटासाठी जबाबदार: AB इंटरनेट नेटवर्क 2008 SL
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.

  1.   मिगुएल एंजेल म्हणाले

    खूप चांगले आहे, आणि लिनक्ससाठी टीटीएस (मजकूर ते भाषण) असेल का?

    विंडोज आणि अँड्रॉईडमध्ये लोक्वेंदो, इव्होना किंवा निओस्पीच सारख्या अतिशय दर्जेदार आवाज आहेत, परंतु ते लिनक्ससाठी नाहीत. लिनक्सवर मी एमब्रोला आणि पिकोटीटीएस आवाजांचा प्रयत्न केला पण ते खूप रोबोटिक आहेत.

    सेपस्ट्रल लिनक्ससाठी एक विनामूल्य अलेजेंद्रा व्हॉईस ऑफर करते जे खूप चांगले आहे, परंतु ते कसे स्थापित करावे हे मला माहित नव्हते.

    1.    रॉल म्हणाले

      जर तुम्हाला चांगला वाटा मिळाला तर मी त्यातच चालतो

      1.    अरमांडो म्हणाले

        आपण लिनक्सवर वाइनसह लुकेंदो वापरू शकता. मी या व्हिडिओची शिफारस करतो ...

        https://www.youtube.com/watch?v=OfGxR_O0Vjk

  2.   नॅशर_87 ((एआरजी) म्हणाले

    मी सहाय्यक स्थापित करण्याचा प्रयत्न केला, म्हणजे गूगल असिस्टंट आणि मी हे करू शकलो नाही, मी रेजिस्ट्री फाईलच्या भागामध्ये राहिलो, मला असे वाटते की कॉल आहे. खूपच वाईट अ‍ॅलेक्सा कचरा आहे ...

  3.   गेरार्डो म्हणाले

    एस्पेक प्रोग्राम डेबियन एप इंस्टॉल एस्पीक कन्सोलवर कार्य करतो. आणि उदाहरणार्थ espeak -ves मध्ये सामील व्हा «हॅलो वर्ल्ड»

    the -ves v = आवाज आहे = स्पॅनिश

    आपल्याकडे मजकूर फाईल वाचण्यासाठी, डब्ल्यूएव्ही फाईलवर परिणाम लिहिण्यासाठी बरेच पर्याय आहेत.

    कोट सह उत्तर द्या

  4.   राऊल म्हणाले

    सत्य सर्व खूप वाईट आहे, विंडोज़ हे आणखी एक जग आहे ... येथे ते 10 वर्षे मागे आहेत

    1.    रॉल म्हणाले

      आणि 3 वर्षांनंतर, होय! हे अद्याप प्रलंबित आहे.