Size: a a a

Распознавание речи

2019 September 26

a

agic in Распознавание речи
короче в качестве хоби ищу человека или людей кто захочет поддерживать deepspeech на русском
источник

a

agic in Распознавание речи
не обязательно разработка
источник

a

agic in Распознавание речи
я дам датасыеты машины, общую инфу, натренировать модель... сервак тоже выделю проверить модель если что как обычно переучить
источник

a

agic in Распознавание речи
ам ))
источник

a

agic in Распознавание речи
ок )) дам в халяву на две недели jupyter lab с gpu
источник

V

Vlad in Распознавание речи
Может быть кто-нибудь знает инструмент/библиотеку для сведения текста и аудио в виде субтитров? Т.е. у менять аудиозапись и текст, который на ней зачитывается, и вот надо расставить тайминги, в каких промежутках какой текст. Как в субтитрах это делается
Аудиозаписи хорошего качества, без шумов и прочего
источник

VK

Viacheslav Klimkov in Распознавание речи
gentle
источник

YP

Yaroslav Pikaliov in Распознавание речи
Vlad
Может быть кто-нибудь знает инструмент/библиотеку для сведения текста и аудио в виде субтитров? Т.е. у менять аудиозапись и текст, который на ней зачитывается, и вот надо расставить тайминги, в каких промежутках какой текст. Как в субтитрах это делается
Аудиозаписи хорошего качества, без шумов и прочего
Можно распознать, а затем поправить текст используя алгоритм Смита-Вотермана
источник

YP

Yaroslav Pikaliov in Распознавание речи
Хотя не... Я неправильно понял вопрос
источник

V

Vlad in Распознавание речи
Viacheslav Klimkov
gentle
Спасибо, выглядит как то, что нужно. Попробую)
источник
2019 September 27

AO

Andrei Obyortyshev in Распознавание речи
В kaldi-ru-0.6 модель на сколько слов используется?

А то взял ru.lm, к ней lexicon.txt на основе ru.dic, который на 500+ тысяч слов и с удивлением обнаружил что граф вышел в 3.5 - 4 раза больше, чем референсный :)
источник

NS

Nikolay Shmyrev in Распознавание речи
570 тыс там, ru.lm надо в рескоринге использовать, а не напрямую, в декодировании там урезанная модель.
источник

NS

Nikolay Shmyrev in Распознавание речи
урезанная модель
ngram 1=506961
ngram 2=3402505
ngram 3=791762
источник

AO

Andrei Obyortyshev in Распознавание речи
ngram 1 тот же, значит и набор слов тот же. Выходит, обрезали только массив текста?
источник

NS

Nikolay Shmyrev in Распознавание речи
нет это отсечка модели в srilm (ngram -prune)
источник

NS

Nikolay Shmyrev in Распознавание речи
3e-8 порог вроде
источник

AO

Andrei Obyortyshev in Распознавание речи
А, понятно. Спасибо.
источник

NS

Nikolay Shmyrev in Распознавание речи
можно разные пороги попробовать, модель должна быть порядка 40 мб.
источник

NS

Nikolay Shmyrev in Распознавание речи
для точности можно и полную модель использовать, граф не такой уж большой.
источник

AO

Andrei Obyortyshev in Распознавание речи
Порядка 600 Мб, как у вас, можно. У меня же вышло ~2.2Гб :)
Попробую пороги покрутить.
источник