Las mejores herramientas para reconocimiento de voz para Linux

2 minutos

La voz es cada vez un método más usado para interactuar con nuestros dispositivos, además de ser el único método para aquellas personas que necesiten de este tipo de métodos de accesibilidad. En cualquier caso, resulta bastante cómodo hablar para dictar texto o simplemente introducir comandos de voz en nuestros sistemas para que éstos hagan algún tipo de operación sin necesidad de usar las manos. El problema es que los sistemas de reconocimiento de voz se basan en motores que usan algoritmos matemáticos para reconocer la voz y no son 100% fiables.

Los avances tecnológicos cada vez acercan más la fiabilidad a la perfección, y los sistemas de inteligencia artificial y big data también están ayudando mucho a que los programas de reconocimiento de voz mejoren enormemente. Últimamente se están poniendo muchos esfuerzos para mejorar estos sistemas al máximo, y muchos estudios se están centrando en ello para mejorar el control y que sean la interfaz del futuro. Ten encuenta que las actuales interfaces son menos naturales para las personas y menos rápidas que la voz.

Los sistemas de reconocimiento de voz tendrán un valor de unos 10 mil millones de dólares en los próximos años y por eso las grandes empresas se están centrando en el desarrollo de asistentes como Siri de Apple, Cortana de Microsoft o Mycroft para Linux, además de hacerse cada vez más populares y frecuentes los productos como Amazon Echo, Google Home, o Apple HomePod para el hogar, así como integrar sofisticados sistemas de reconocimiento de voz en los coches conetados.

Dicho esto, nuestra lista de tools de reconocimeinto de voz para Linux son:

Julius: es un potente motor de reconocimiento de voz continuo con gran cantidad de vocabulario.
DeepSpeech: es una implementación de TensorFLow de la arqutiectura DeepSpeech de Baidu.
Simon: un software de reconocimiento de voz bastante flexible.
Kaldi: es un kit de herramientas C++ de diseño para investigación del reconocimiento de voz.
CMUSphinx: en este caso se trata de un motor de reconocimiento de voz para apps móviles y servidores.
deepspeech.python: es una implementación de DeepSPeech con Python y usando Baidu Warp-CTC.

Deja tu comentario Cancelar la respuesta

Miguel Angel dijo
hace 6 años

Muy bueno, ¿y habrá algún TTS (texto a voz) bueno para linux?

En Windows y Android hay voces de muy buena calidad como Loquendo, Ivona o NeoSpeech, pero no están para Linux. En Linux probé la voces mbrola y picoTTS pero son muy robóticas.

Cepstral ofrece gratis una voz de Alejandra para linux que es bastante buena, pero no supe instalarla.

Responder a Miguel Angel
1. rAUL dijo
  hace 6 años
  
  yo ando en lo mismo si consigues una buena comparte
  
  Responder a rAUL
  1. Armando dijo
    hace 6 años
    
    Puedes usar loquendo con wine en linux. Te recomiendo este video…
    
    https://www.youtube.com/watch?v=OfGxR_O0Vjk
    
    Responder a Armando
Nasher_87(ARG) dijo
hace 6 años

Yo intente instalar un asistente, osea, Google Assistant y no pude, me quede en la parte del archivo de registro, creo que se llama. Lastima que Alexa sea una porquería…

Responder a Nasher_87(ARG)
Gerardo dijo
hace 6 años

El programa espeak funciona en la consola debian apt install espeak. Y se una por ejemplo espeak -ves «Hola Mundo»

el -ves es v=voices es=español

Tiene muchas opciones leer un archivo de texto, grabar el resultado a un archivo wav.

Saludos

Responder a Gerardo
raul dijo
hace 6 años

la verdad todo muy malo, windows eso es otro mundo…aca estan 10 años atrasados

Responder a raul
1. Raul dijo
  hace 2 años
  
  Y 3 años después, si! esto sigue atrasado.
  
  Responder a Raul