И ещё мы тут немного ошиблись в подсчёте wer для espnet и kaldi, и пересчитали его заново на нашем тестовом датасете из телефонии на 1 час. Вот результаты, если кому интересно (гугл для эталона):
Google Speech API
WER = 0.33, SER = 0.911
С парсером чисел
WER = 0.31, SER = 0.911
———
Kaldi
WER = 0.44, SER = 0.911
———
ESPnet
WER = 0.22, SER = 0.75
В итоге готовая модель для espnet, обученная на датасете open_stt (там около 7000 часов аудио разного качества) показывает лучшую точность работы, чем другие. Мы пробовали обучать espnet отдельно только на телефонии (там около 20 часов), но результат был хуже: wer около 37-38%