Голос все чаще становится методом взаимодействия с нашими устройствами, а не только единственным способом для тех, кому нужны такие методы доступности. В любом случае довольно удобно говорить, чтобы диктовать текст или просто вводить голосовые команды в наши системы, чтобы они выполняли какие-то операции, не используя руки. Проблема в том, что распознавание речи они основаны на механизмах, которые используют математические алгоритмы для распознавания речи и не на 100% надежны.
Технологические достижения все чаще приносят надежность к совершенству, а системы искусственного интеллекта и больших данных также значительно помогают улучшить программы распознавания речи. В последнее время прилагается много усилий для максимального улучшения этих систем, и многие исследования сосредоточены на этом, чтобы улучшить контроль и сделать их интерфейсом будущего. Имейте в виду, что современные интерфейсы менее естественны для людей и менее быстры, чем голосовые.
Стоимость систем распознавания голоса в ближайшие годы составит около 10 миллиардов долларов, и именно поэтому крупные компании сосредотачиваются на разработке таких помощников, как Siri от Apple, Cortana от Microsoft или Майкрофт для Linux, в дополнение к становлению все более популярными и частыми продуктами, такими как Amazon Echo, Google Home или Apple HomePod для дома, а также интеграции сложных систем распознавания голоса в подключенных автомобилях.
Тем не менее, наш список инструментов распознавания речи для Linux являются:
- Джулиус: это мощный механизм непрерывного распознавания речи с большим словарным запасом.
- Глубокая речь: это реализация TensorFLow архитектуры Baidu DeepSpeech.
- Саймон: довольно гибкое программное обеспечение для распознавания речи.
- Kaldi: это набор средств разработки C ++ для исследования распознавания речи.
- КМУСфинкс: в данном случае это движок распознавания голоса для мобильных приложений и серверов.
- глубокая речь.python: реализация DeepSPeech с Python и с использованием Baidu Warp-CTC.
Очень хорошо, а будет ли хороший TTS (преобразование текста в речь) для linux?
В Windows и Android есть голоса очень хорошего качества, такие как Loquendo, Ivona или NeoSpeech, но они не для Linux. В Linux я пробовал голоса mbrola и picoTTS, но они очень автоматизированы.
Cepstral предлагает бесплатный голос Алехандры для Linux, что неплохо, но я не знал, как его установить.
Я иду так же, если ты получишь хорошую долю
Вы можете использовать loquendo с вином в Linux. Рекомендую это видео ...
https://www.youtube.com/watch?v=OfGxR_O0Vjk
Я пытался установить помощника, то есть Google Assistant и не смог, я остался в части файла реестра, я думаю, это называется. Жаль, что Алекса - дерьмо ...
Программа espeak работает на консоли debian apt install espeak. И присоединяйтесь к примеру espeak -ves «Hello World»
-ves is v = voices is = испанский
У вас есть много вариантов, чтобы прочитать текстовый файл, записать результат в файл wav.
привет
правда все очень плохо, окна то другой мир ... вот они на 10 лет отстают
И 3 года спустя - да! это все еще просрочено.