За счёт того, что трансформер обложен атеншном со всех сторон, ему очень просто научиться копипастить, ничего толком не выучив.
Поэтому при обучении всех известных автоэнкодеров типа BERT или T5 входной текст специально портят, например, заменяя слова на маски, или вообще удаляя, а трансформер учится по такому испорченному тексту предсказывать его изначальную версию.