Посмотрел код, вроде всё адекватно, никаких проблем с этой архитектурой не вижу.
Думаю, что энкодер точно нужно дообучать, ибо T5 по умолчанию на mean pooling не рассчитан. Ну или, как вариант, можно вместо mean pooling сделать пулер, использующий атеншн.