Las mejores herramientas para reconocimiento de voz para Linux

Fondo de reconocimiento de voz

La voz es cada vez un método más usado para interactuar con nuestros dispositivos, además de ser el único método para aquellas personas que necesiten de este tipo de métodos de accesibilidad. En cualquier caso, resulta bastante cómodo hablar para dictar texto o simplemente introducir comandos de voz en nuestros sistemas para que éstos hagan algún tipo de operación sin necesidad de usar las manos. El problema es que los sistemas de reconocimiento de voz se basan en motores que usan algoritmos matemáticos para reconocer la voz y no son 100% fiables.

Los avances tecnológicos cada vez acercan más la fiabilidad a la perfección, y los sistemas de inteligencia artificial y big data también están ayudando mucho a que los programas de reconocimiento de voz mejoren enormemente. Últimamente se están poniendo muchos esfuerzos para mejorar estos sistemas al máximo, y muchos estudios se están centrando en ello para mejorar el control y que sean la interfaz del futuro. Ten encuenta que las actuales interfaces son menos naturales para las personas y menos rápidas que la voz.

Los sistemas de reconocimiento de voz tendrán un valor de unos 10 mil millones de dólares en los próximos años y por eso las grandes empresas se están centrando en el desarrollo de asistentes como Siri de Apple, Cortana de Microsoft o Mycroft para Linux, además de hacerse cada vez más populares y frecuentes los productos como Amazon Echo, Google Home, o Apple HomePod para el hogar, así como integrar sofisticados sistemas de reconocimiento de voz en los coches conetados.

Dicho esto, nuestra lista de tools de reconocimeinto de voz para Linux son:

  • Julius: es un potente motor de reconocimiento de voz continuo con gran cantidad de vocabulario.
  • DeepSpeech: es una implementación de TensorFLow de la arqutiectura DeepSpeech de Baidu.
  • Simon: un software de reconocimiento de voz bastante flexible.
  • Kaldi: es un kit de herramientas C++ de diseño para investigación del reconocimiento de voz.
  • CMUSphinx: en este caso se trata de un motor de reconocimiento de voz para apps móviles y servidores.
  • deepspeech.python: es una implementación de DeepSPeech con Python y usando Baidu Warp-CTC.

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

  1. Responsable de los datos: AB Internet Networks 2008 SL
  2. Finalidad de los datos: Controlar el SPAM, gestión de comentarios.
  3. Legitimación: Tu consentimiento
  4. Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  5. Almacenamiento de los datos: Base de datos alojada en Occentus Networks (UE)
  6. Derechos: En cualquier momento puedes limitar, recuperar y borrar tu información.

  1.   Miguel Angel dijo

    Muy bueno, ¿y habrá algún TTS (texto a voz) bueno para linux?

    En Windows y Android hay voces de muy buena calidad como Loquendo, Ivona o NeoSpeech, pero no están para Linux. En Linux probé la voces mbrola y picoTTS pero son muy robóticas.

    Cepstral ofrece gratis una voz de Alejandra para linux que es bastante buena, pero no supe instalarla.

    1.    rAUL dijo

      yo ando en lo mismo si consigues una buena comparte

      1.    Armando dijo

        Puedes usar loquendo con wine en linux. Te recomiendo este video…

        https://www.youtube.com/watch?v=OfGxR_O0Vjk

  2.   Nasher_87(ARG) dijo

    Yo intente instalar un asistente, osea, Google Assistant y no pude, me quede en la parte del archivo de registro, creo que se llama. Lastima que Alexa sea una porquería…

  3.   Gerardo dijo

    El programa espeak funciona en la consola debian apt install espeak. Y se una por ejemplo espeak -ves «Hola Mundo»

    el -ves es v=voices es=español

    Tiene muchas opciones leer un archivo de texto, grabar el resultado a un archivo wav.

    Saludos

  4.   raul dijo

    la verdad todo muy malo, windows eso es otro mundo…aca estan 10 años atrasados

    1.    Raul dijo

      Y 3 años después, si! esto sigue atrasado.