DD
Идеальное решение, как мне кажется - взять качественный параллельный speech корпус (типа аудиокниг), аугментировать аудио-часть разными шумами и т.п., прогнать её через ASR, и получить грязные тексты. И по ним предсказывать тексты оригинальные. То есть полностью воссоздать тот шум, который вносит ASR модель. Но, увы, если ASR дорогой, то и всё решение дорогое.
(Но, если что, я не настоящий сварщик, и речью никогда всерьёз не занимался)

