Без, думаю, работать не будет, в сагане у тебя сначала пародия на обычный линейный conv1x1, но после и более мощный transpose convolution. В обычном трансформере тоже самое, только без inductive bias локальности.
ну мне кажется conv там потому из-за общих причин почему conv а не linear, а трансопзнутый, потому что мы нойз с маленьким измерением выращиваем в картинку, то есть это по сути декодер для нойза, изучающий distribution фичеров картинки. А декодер это ConvolutionalTransposeNet по сути.
На счет траснформера не понял мысль, зачем там двойной слой MLP?