Николай, здравствуйте. В продолжение эпопеи по online распознаванию с использованию kadli ru 2, не могли бы вы помочь разобраться с несколькими вопросами:
1. Для онлайн-распознавания нужно натренировать ivector, верно?
2. Судя по документации, наболее подходящий для nnet3 (tdnn) пример - egs/tedlium. Пытаюсь с ним разобраться и сделать по аналогии online kaldi ru, используя вашу модель.
Там есть скрипт run_ivector_common.sh, в котором stage 5 - тренировка вектора.
Пререквизитами, как я понял является:
A. mfcc, который я сделал по аналогии с вашим скриптом
decode.sh:
compute-mfcc-feats --config=conf/mfcc.conf scp:decoder-test.scp ark:- | \
remove-mean ark:- ark:- | \
copy-feats --compress=true ark:- \
ark,scp:mfcc.ark,feats.scp \
|| exit 1;
B. И некий data/train_cleaned/utt2spk, на отсутствии которого скрипт спотыкается на шаге preparing directory for speed-perturbed data
В правильном ли направлении я двигаюсь? Или есть способ всё сделать гораздо проще?
Можете подсказать направление, в каком копать, чтобы достать пререквизиты для тренировки ivector на базе вашей модели?