всем - здравствуйте
пишем демо-проект для распознавания команд из аудиофайлов. используется словарь и свой файл грамматики вместо языковой модели
Грамматика
#JSGF V1.0;
grammar commands;
<action> = (включить | выключить);
<device> = (проектор | звук | презентацию);
public <commands> = (<action> <device>);
словарь
включить v k ll uj ch i tt
выключить v y k ll uj ch ii tt
звук z v uu k
презентацию p rr i zz i n t aa c y uj
проектор p r ay i k t oo r
для проверки используются несколько аудио от разных людей (т.е., с разными голосами, громкостью, дикцией и т.д.) - всего 4 пока.
из этих 4 аудио результат выдается только на одном, остальные же результатом выдают пустую строку (т.е., как будто там никто ничего не говорил)
можете подсказать, как можно этот мент улучшить? чтобы распознавало больше входящих реплик?
в качестве акустической модели используется zero_ru.cd_cont_4000