Телеграмм чат группы cmusphinx

Может быть кто-нибудь знает инструмент/библиотеку для сведения текста и аудио в виде субтитров? Т.е. у менять аудиозапись и текст, который на ней зачитывается, и вот надо расставить тайминги, в каких промежутках какой текст. Как в субтитрах это делается
Аудиозаписи хорошего качества, без шумов и прочего

источник

18:08пожаловаться #6

Viacheslav Klimkov in Распознавание речи

gentle

источник

18:16пожаловаться #7

Yaroslav Pikaliov in Распознавание речи

Vlad

Можно распознать, а затем поправить текст используя алгоритм Смита-Вотермана

источник

18:21пожаловаться #8

Yaroslav Pikaliov in Распознавание речи

Хотя не... Я неправильно понял вопрос

источник

18:22пожаловаться #9

Vlad in Распознавание речи

Viacheslav Klimkov

gentle

Спасибо, выглядит как то, что нужно. Попробую)

источник

18:25пожаловаться #10

2019 September 27

Andrei Obyortyshev in Распознавание речи

В kaldi-ru-0.6 модель на сколько слов используется?

А то взял ru.lm, к ней lexicon.txt на основе ru.dic, который на 500+ тысяч слов и с удивлением обнаружил что граф вышел в 3.5 - 4 раза больше, чем референсный :)

источник

11:25пожаловаться #11

Nikolay Shmyrev in Распознавание речи

570 тыс там, ru.lm надо в рескоринге использовать, а не напрямую, в декодировании там урезанная модель.

источник

11:27пожаловаться #12

Nikolay Shmyrev in Распознавание речи

урезанная модель

ngram 1=506961
ngram 2=3402505
ngram 3=791762

источник

11:28пожаловаться #13

Andrei Obyortyshev in Распознавание речи

ngram 1 тот же, значит и набор слов тот же. Выходит, обрезали только массив текста?

источник

11:31пожаловаться #14

Nikolay Shmyrev in Распознавание речи

нет это отсечка модели в srilm (ngram -prune)

источник

11:32пожаловаться #15

Nikolay Shmyrev in Распознавание речи

3e-8 порог вроде

источник

11:32пожаловаться #16

Andrei Obyortyshev in Распознавание речи

А, понятно. Спасибо.

источник

11:32пожаловаться #17

Nikolay Shmyrev in Распознавание речи

можно разные пороги попробовать, модель должна быть порядка 40 мб.

источник

11:32пожаловаться #18

Nikolay Shmyrev in Распознавание речи

для точности можно и полную модель использовать, граф не такой уж большой.

источник

11:33пожаловаться #19

Andrei Obyortyshev in Распознавание речи

Порядка 600 Мб, как у вас, можно. У меня же вышло ~2.2Гб :)
Попробую пороги покрутить.

источник

11:34пожаловаться #20