ВК есть бот, который переводит голосовые сообщения в текст, авторы говорят что основан на нейросети Фейсбука. У Фейсбука есть wav2letter, хотя на русском я её не нашел.
Однако хочу сказать, что качество распознавания выше чем у Алисы значительно. А скорость сопоставимая. Яндекс, не хотите переехать на другую технологию?
Бот:
https://vk.com/whatsaidhere, я ему читал Пушкина полторы минуты, он допустил буквально 3-5 ошибок на весь текст. Процент ошибок нейросети по тестам около 5%.