Добрый день!
Решил для своего пет проекта попробовать взять задачу распознавания произношения. Типа человек произносит слово на английском, я хочу распознать ошибки и качество.
Подскажите, пожалуйста, с чего вообще стоит начать? Я видел примеры проектов по «обычному» распознаванию речи. Возможно стоит подойти к этому вопросу с той же стороны, только распознавать не буквы / слова, а фонемы и их продолжительность, после чего сравнивать их с эталоном?
Буду рад услышать любые рекомендации. Может вообще уже есть такие решения и можно посмотреть, как это делается.
Да, наверное нужно в сторону ASR смотреть. Модели обычно выдают метрику, насколько они уверены в правильности распознавания. И далее уже от механики зависит. Если человек читает заранее подготовленный текст, то просто сравнивать с ним результат распознавания. Если это произвольная речь, то взять например BERT и проверять слова, которые неуверенно распознанны, подходят ли они вообще по смыслу в контексте предложения. Ну и какую-то свою обощенную метрику сделать: если слово распозналось правильно, но метрика уверенности распознавания низкая - то это среднее качество произношения.. Если слово совсем не то - то низкое качество произношения.
Задача вроде не сложная, сейчас много крутых моделей в свободном доступе, тем более на английском, все модели предобучены, взять и слепить.