Deep learning)
По энкодерам (аудиомодель) сейчас иногда используют TDNN, некоторые работы опираются на пару сверток + Transformer Encoder, кто-то 1D свертки использует (CNN получается, только на 1D свертках), вот нынче модно Conformer использовать. Для декодирования - да к чему душа у кого лежит, но чаще встречал LSTM и Transformer Decoder. Лоссы - кросс энтропия и CTC loss. Аугментации - SpecAugment наиболее важно. Лингвистические модели - чаще Transformer, иногда - LSTM. Можно и без них. Beam Search в декодировании, + эвристики на окончание декодирования. Разбиение текста обычно через Byte Pair Encoding.