Собственно, если кому интересно, вот результат сравнения общедоступных русскоязычных моделей для распознавания речи на датасете из телефонии (максимально приближенный к реальности):
1. ESPnet (модель open_stt): WER: 49.48%, SER: 95.33%
2. kaldi (модель v0.6): WER: 45.89%, SER: 92.36%
3. Google Cloud Speech API (приведен в качестве эталона): WER: 33.28%, SER: 91.09%
Вай-вай-вай, после таких подписей в таких табличках в некоторых кругах ходят мнения, что "kaldi распознает речь хуже tensorflow":)