A voz é cada vez mais um método utilizado para interagir com os nossos dispositivos, além de ser o único método para quem necessita deste tipo de métodos de acessibilidade. Em qualquer caso, é bastante confortável falar para ditar texto ou simplesmente inserir comandos de voz em nossos sistemas para que eles façam algum tipo de operação sem usar as mãos. O problema é que reconhecimento de voz eles são baseados em motores que usam algoritmos matemáticos para reconhecer a fala e não são 100% confiáveis.
Os avanços tecnológicos estão trazendo cada vez mais o confiança com perfeição, e a inteligência artificial e os sistemas de big data também estão ajudando muito a melhorar enormemente os programas de reconhecimento de voz. Ultimamente, muitos esforços estão sendo feitos para melhorar esses sistemas ao máximo, e muitos estudos estão se concentrando nisso para melhorar o controle e torná-los a interface do futuro. Lembre-se de que as interfaces atuais são menos naturais para as pessoas e menos rápidas do que as de voz.
Os sistemas de reconhecimento de voz terão um valor de cerca de 10 bilhões de dólares nos próximos anos e é por isso que grandes empresas estão se concentrando no desenvolvimento de assistentes como Siri da Apple, Cortana da Microsoft ou Mycroft para Linux, além de se tornarem produtos cada vez mais populares e frequentes, como Amazon Echo, Google Home ou Apple HomePod para o lar, além de integrar sistemas sofisticados de reconhecimento de voz em carros conectados.
Dito isto, nossa lista de ferramentas de reconhecimento de voz para Linux são:
- Julius: é um poderoso motor de reconhecimento de voz contínuo com muito vocabulário.
- Fala Profunda: é uma implementação TensorFLow da arquitetura DeepSpeech do Baidu.
- Simon: um software de reconhecimento de voz bastante flexível.
- Kaldi: é um kit de ferramentas de design C ++ para pesquisa de reconhecimento de fala.
- CMUSphinxName: neste caso, é um mecanismo de reconhecimento de voz para aplicativos e servidores móveis.
- deepspeech.python: é uma implementação de DeepSPeech com Python e usando Baidu Warp-CTC.
Muito bom, e haverá algum TTS (texto em fala) bom para o Linux?
No Windows e no Android existem vozes de muito boa qualidade, como Loquendo, Ivona ou NeoSpeech, mas não são para Linux. No Linux, tentei as vozes mbrola e picoTTS, mas elas são muito robóticas.
Cepstral oferece a voz de Alejandra grátis para linux que é muito boa, mas eu não sabia como instalar.
Eu ando na mesma se você conseguir uma boa parte
Você pode usar loquendo com vinho no Linux. Eu recomendo este vídeo ...
https://www.youtube.com/watch?v=OfGxR_O0Vjk
Tentei instalar um assistente, quer dizer, Google Assistant e não consegui, fiquei na parte do arquivo de registro, acho que se chama. Que pena que Alexa é uma porcaria ...
O programa espeak funciona no console debian apt install espeak. E junte-se, por exemplo, espeak -ves «Hello World»
o -ves é v = vozes é = espanhol
Você tem muitas opções para ler um arquivo de texto, gravar o resultado em um arquivo wav.
lembranças
a verdade é tudo muito ruim, windows que é outro mundo ... aqui estão eles 10 anos atrasados
E 3 anos depois, sim! ainda está atrasado.