A
Google Speech API
WER = 0.33, SER = 0.911
С парсером чисел
WER = 0.31, SER = 0.911
———
Kaldi
WER = 0.44, SER = 0.911
———
ESPnet
WER = 0.22, SER = 0.75
В итоге готовая модель для espnet, обученная на датасете open_stt (там около 7000 часов аудио разного качества) показывает лучшую точность работы, чем другие. Мы пробовали обучать espnet отдельно только на телефонии (там около 20 часов), но результат был хуже: wer около 37-38%