По-моему, здесь играет роль, какую именно T5 дообучать.
Если брать гугловскую англоязычную T5 или мою русскую multitask, то они действительно видели десятки задач, и на новые обобщаются довольно быстро.
А если брать гугловскую мультиязычную T5, или сберовские русские T5 "как есть", то они обучались только на MLM, и другие задачи схавывают не сразу.