Правда, в openfst lookahead довольно медленный. На практике было-бы здорово иметь возможность преинициализировать HCLG, как пишут в https://arxiv.org/abs/1910.10670
@nshmyrev тогда непонято, почему fstpushspecial всё портит. Когда я этим занимался, я взял рецепт http://bozskyfilip.blogspot.com/2017/11/how-make-hcl-and-g-graphs-and-on-fly.html, долго над ним страдал, и в конце обнаружил, что из него просто нужно выкинуть fstpushspecial на этапе сборки HCL.fst из det.HaCL.fst, чтобы результаты сошлись с оффлайновой композицией.
@nshmyrev тогда непонято, почему fstpushspecial всё портит. Когда я этим занимался, я взял рецепт http://bozskyfilip.blogspot.com/2017/11/how-make-hcl-and-g-graphs-and-on-fly.html, долго над ним страдал, и в конце обнаружил, что из него просто нужно выкинуть fstpushspecial на этапе сборки HCL.fst из det.HaCL.fst, чтобы результаты сошлись с оффлайновой композицией.
Почему портит понятно - работает неточно и делает не то, что нужно. А вот почему без него не работает тоже, это вопрос. Сейчас попробовал ещё с minimize(det(L)), виснет на librispeech. Там в sil фонемы на концах добавляются, думаю из-за этого. Никогда мне эти sil не нравились 😉
Почему портит понятно - работает неточно и делает не то, что нужно. А вот почему без него не работает тоже, это вопрос. Сейчас попробовал ещё с minimize(det(L)), виснет на librispeech. Там в sil фонемы на концах добавляются, думаю из-за этого. Никогда мне эти sil не нравились 😉
Это только на librispeech наигрывается? Мы такие проблемы, вроде, не ловили...
Пытаю https://github.com/alphacep/kaldi-websocket-python - не плохо работает - но мой источник дает slin16 16000 bit / sek Не хочется конвертировать - можно заставить kaldi работать на 16000 ? И это лучше / хуже 8000 ?
Пытаю https://github.com/alphacep/kaldi-websocket-python - не плохо работает - но мой источник дает slin16 16000 bit / sek Не хочется конвертировать - можно заставить kaldi работать на 16000 ? И это лучше / хуже 8000 ?
У меня источник телефония ulaw - пытаюсь прикрутить /channels/externalMedia - а у них сейчас работает только slin16 16000 бит/сек или ulaw 8000 format - по сути источник у меня 8000 - думаю не стоит тренироваться