Size: a a a

Распознавание речи

2017 October 03

vb

vad babushkin in Распознавание речи
Главная для меня щас теория, и воедино всё свести. Так как личный проект, то постоянно времени нет. Но движется потихоньку. Собственно уровень распознавания это уже сильнейший стимул дальше работать :)
источник

LV

Leo V in Распознавание речи
ты собрал модель, которую выложил Николай?
источник

vb

vad babushkin in Распознавание речи
а вот как разместить я пока не знаю, буду опыты делать
источник

vb

vad babushkin in Распознавание речи
я собрал первую версию. Точнее я собрал kaldi, а потом просто распаковал и запустил. Centos 7
источник

LV

Leo V in Распознавание речи
а сколько у тебя ушло на изучение калди до уровня включить это и чтоб оно распознало?
источник

vb

vad babushkin in Распознавание речи
Хм. Так я её до сих пор не знаю :) Сфинкс я хотя бы внутри малость копал и форум весь прочитал на исходниках. Здесь всё тупо, скомпилировал и запустил. всё впереди. Чтение исходников усугубляется что я Жабист, так что будущее у меня интересное и насыщенное :)
источник

vb

vad babushkin in Распознавание речи
на сборку и проверку ушло часа 3-4, там были проблемы со сборкой. библиотеки доставил и прочее
источник

LV

Leo V in Распознавание речи
а есть какой-то пример текста, который лучше надиктовать для расчёта точности и полноты распознавания для своего голоса? я так понимаю, надо выбрать что-то со словами, которые точно есть во всех русских языковых моделях
источник

LV

Leo V in Распознавание речи
в гайде написано, что я должен надиктовать не менее 10 минут текста, в тот микрофон и в том помещении, где я собираюсь это использовать. может, взять сразу много диктофонов, чтобы не повторяться потом.
источник

vb

vad babushkin in Распознавание речи
Тут надо послушать более опытных товарищей, результат был. Для информации очень полезен этот форум http://forum.sources.ru/index.php?s=c7f10166c91c05699e706ae87c2a1bd8&showforum=35
источник
2017 October 05

AC

Artyom Chernetsov in Распознавание речи
Николай, извините если глупость спрошу, какая топология у сети kaldi RU 2? RNNs, LSTMs, BLSTMs?
источник

NS

Nikolay Shmyrev in Распознавание речи
tdnn
источник
2017 October 06

AC

Artyom Chernetsov in Распознавание речи
Спасибо
источник

NS

Nikolay Shmyrev in Распознавание речи
nnet3-am-info final.mdl
источник

AC

Artyom Chernetsov in Распознавание речи
Идеально )
источник

AC

Artyom Chernetsov in Распознавание речи
Николай, здравствуйте. В продолжение эпопеи по online распознаванию с использованию kadli ru 2, не могли бы вы помочь разобраться с несколькими вопросами:

1. Для онлайн-распознавания нужно натренировать ivector, верно?
2. Судя по документации, наболее подходящий для nnet3 (tdnn) пример - egs/tedlium. Пытаюсь с ним разобраться и сделать по аналогии online kaldi ru, используя вашу модель.

Там есть скрипт run_ivector_common.sh, в котором stage 5 - тренировка вектора.

Пререквизитами, как я понял является:
A. mfcc, который я сделал по аналогии с вашим скриптом decode.sh:

compute-mfcc-feats --config=conf/mfcc.conf scp:decoder-test.scp ark:- | \
   remove-mean ark:- ark:- | \
   copy-feats --compress=true ark:- \
     ark,scp:mfcc.ark,feats.scp \
    || exit 1;

B. И некий data/train_cleaned/utt2spk, на отсутствии которого скрипт спотыкается на шаге preparing directory for speed-perturbed data

В правильном ли направлении я двигаюсь? Или есть способ всё сделать гораздо проще?
Можете подсказать направление, в каком копать, чтобы достать пререквизиты для тренировки ivector на базе вашей модели?
источник

NS

Nikolay Shmyrev in Распознавание речи
На базе kaldi-ru ivector тренировать нельзя
источник

NS

Nikolay Shmyrev in Распознавание речи
Они вообще на данных тренируются а не на модели
источник

NS

Nikolay Shmyrev in Распознавание речи
Модель их потом использует
источник

AC

Artyom Chernetsov in Распознавание речи
соответственно, использовать kaldi ru для online распознавания не получится (ivector нужен ведь)?
источник