Size: a a a

Распознавание речи

2019 October 09

Я

Я in Распознавание речи
Скажите пожалуйста. какая примерно задержка получается при использовании сфинкса на распбери. Т.е. интересует время от момента когда сказал фразу и когда запущен скрипт.
источник

NS

Nikolay Shmyrev in Распознавание речи
Я
Скажите пожалуйста. какая примерно задержка получается при использовании сфинкса на распбери. Т.е. интересует время от момента когда сказал фразу и когда запущен скрипт.
Зависит от моделей - размера словаря, размера акустической модели. Очень быстро работать с большим словарем по умолчанию не будет. Если настроить все правильно, тогда задержки не будет - 0.2 сек или около того.
источник

Я

Я in Распознавание речи
Может быть есть кто-то здесь кто возьмется за денюжку "настроить всё правильно" ? Начиная от совета по выбору железа и заканчивая именно настройкой
источник

NS

Nikolay Shmyrev in Распознавание речи
За денюжку лень, можно так. Что нужно сделать-то?
источник

Я

Я in Распознавание речи
нужно устройство на базе распберри и им подобных, которое передавало бы на сервер команды из своего словаря. К примеру микрофона шорох или ReSpeaker, может есть что-то более подходящее. Нужно распозначание в комнате примерно до 25 кв. м.
источник

NS

Nikolay Shmyrev in Распознавание речи
Команд сколько. Команды фиксированные или меняются?
источник

Я

Я in Распознавание речи
команд не больше 50. Фиксированные. По типу включи свет в спальне
источник

NS

Nikolay Shmyrev in Распознавание речи
Ну, 50 команд многовато.
источник

NS

Nikolay Shmyrev in Распознавание речи
ключевое слово не хотите?
источник

Я

Я in Распознавание речи
да, ключевое слово пусть будет
источник

NS

Nikolay Shmyrev in Распознавание речи
Ну тогда ключевое слово на нейросетях делать надо и модель kaldi тренировать для распознавания. respeaker тоже прикручивать. Простой настройкой не обойдёшься, много всего.
источник

Я

Я in Распознавание речи
Nikolay Shmyrev
Ну тогда ключевое слово на нейросетях делать надо и модель kaldi тренировать для распознавания. respeaker тоже прикручивать. Простой настройкой не обойдёшься, много всего.
может проще тогда через яндес в онлайне сделать?
источник

NS

Nikolay Shmyrev in Распознавание речи
Яндекс будет гораздо проще для начала
источник

NS

Nikolay Shmyrev in Распознавание речи
для ключевого слова вот это можно взять https://github.com/MycroftAI/mycroft-precise/wiki/Training-your-own-wake-word#how-to-train-your-own-wake-word
источник

VM

Vladimir Mevedev in Распознавание речи
Попробовал EAGI + docker kaldi - супер - неплохо распознает ! По сравнению с Pocketsphinx - очень прилично !Спасибо Николаю ! Вопрос - по требуемым вычислительным ресурсам для голосового меню -> как понял для полнословарного распознавания kaldi не тежелее Pocketsphinx или даже легче, а для малого словаря ? И стоит затеивать обрезание словаря в kaldi ? В общем скорость kaldi сейчас устраивает - вопрос скорее по потребляемым ресурсам - уменьшатся ? Как сильно если словарь нужен на сотню слов ?
источник

NS

Nikolay Shmyrev in Распознавание речи
Спасибо Владимир. По ресурсам там на нейросеть много тратится, до 70%, скорость от маленького словаря не сильно лучше будет, ну может процентов на 20 быстрее. Точность получше будет и памяти будет меньше занимать, но граф перекомпилировать - это целая история, скрипты надо запускать в kaldi, не так просто, как в ps.
источник

VM

Vladimir Mevedev in Распознавание речи
А как сильно меньше памяти ? По скорости и точности все вполне устраивает
источник

NS

Nikolay Shmyrev in Распознавание речи
Ну граф вместо 500 Мб будет 40Мб. Модель 60Мб. Память на поток примерно по 50мб.
источник
2019 October 10

VM

Vladimir Mevedev in Распознавание речи
А сейчас на поток 500 Мб ?
источник

NS

Nikolay Shmyrev in Распознавание речи
Нет, сейчас те же 50мб, граф HCLG.fst сейчас 500мб
источник