ну да. последние записи на эту тему которые видел были в три прыжка... один с ffmpeg вроде не заводился или еще что-то.. поэтому мой вариант sox + lame
есть ещё ACM решения... Вроде неплохо распознаёт.. и ставится на свой сервер. Вот только цена в почти миллион.. зато разово на "все времена"
на конференции во время открытого микрофона выходил рдин из разработчиков Shinx - предлагал помощь и наработки использовать. @IgorrG его более тесно знает я думаю. Ну или @voxlink