Size: a a a

Распознавание речи

2019 June 02

RA

Robert Arzin in Распознавание речи
спасибо 👍
источник

IK

Ilya Kalinovskiy in Распознавание речи
Robert Arzin
кст, может это только у меня или у всех, но генерация стала по времени существенно дольше на русском языке.
Странно, должно быть 2-3 сек на ответ для небольших предложений
источник

RA

Robert Arzin in Распознавание речи
Ilya Kalinovskiy
Странно, должно быть 2-3 сек на ответ для небольших предложений
вот я тоже удивился. 2 дня назад было все более или менее приемлимо. Может из-за сети. Поскольку, чтобы скачать через api ТГ мне потребовалось openvpn понимать
источник
2019 June 05

AZ

Alexey Zholobov in Распознавание речи
Добрый день. До какого WER имеет смысл подтягивать классическую HMM модель в обучении калди?
источник

RA

Robert Arzin in Распознавание речи
Alexey Zholobov
Добрый день. До какого WER имеет смысл подтягивать классическую HMM модель в обучении калди?
Добрый! странный вопрос. все зависит от требований и условий вашей задачи
источник

AZ

Alexey Zholobov in Распознавание речи
Имеется ввиду, что потом эта модель будет использоваться для обучения nnet3.
источник

AZ

Alexey Zholobov in Распознавание речи
Сейчас я просто накидал русский датасет в egs/mini_librespeech и на трифонной модели получил WER 55%. С этим уже можно учить дальше, или надо тюнить?
источник

RA

Robert Arzin in Распознавание речи
Alexey Zholobov
Сейчас я просто накидал русский датасет в egs/mini_librespeech и на трифонной модели получил WER 55%. С этим уже можно учить дальше, или надо тюнить?
55% это примерно как монетку подбрасывать
источник

t2

tonko 22 in Распознавание речи
Robert Arzin
55% это примерно как монетку подбрасывать
у монетки 2 варианта, а у слов больше
источник

t2

tonko 22 in Распознавание речи
pure random ≈ 1/len(vocab)
источник

RA

Robert Arzin in Распознавание речи
tonko 22
у монетки 2 варианта, а у слов больше
согласен, мой ответ немного утрирован
источник

t2

tonko 22 in Распознавание речи
55% WER мне дал яндекс на моих данных телефонии
источник

RA

Robert Arzin in Распознавание речи
tonko 22
55% WER мне дал яндекс на моих данных телефонии
что у них под капотом используется?
источник

t2

tonko 22 in Распознавание речи
Robert Arzin
что у них под капотом используется?
сложно сказать, в основе думаю kaldi+свои лоу левел костыли
источник

t2

tonko 22 in Распознавание речи
а так еще пост-обработка играет роль, скорее всего
источник

t2

tonko 22 in Распознавание речи
и похоже на отдельную word-lm для каждой предметной области
источник

RA

Robert Arzin in Распознавание речи
tonko 22
сложно сказать, в основе думаю kaldi+свои лоу левел костыли
нужно будет поинтересоваться у друзей. они как раз над алисой работали
источник

t2

tonko 22 in Распознавание речи
Robert Arzin
нужно будет поинтересоваться у друзей. они как раз над алисой работали
а алиса работает на speech kit?
источник

RA

Robert Arzin in Распознавание речи
tonko 22
а алиса работает на speech kit?
точно сказатб не могу
думаю, да
иначе зачем пилить свой tool kit если его у себя не использовать?
источник

t2

tonko 22 in Распознавание речи
Robert Arzin
точно сказатб не могу
думаю, да
иначе зачем пилить свой tool kit если его у себя не использовать?
я весьма давно тестил и мне показалось что speech kit не такой широконаправленный
источник