Коллеги, я попробовал на Colab Pro - такую связку - Bert + Torch + Torch Lightning. Перевел GPU решение на TPU. И получил странные результат - на TPU учиться чуть ли не медленнее чем на CPU. При этом тоже решение на GPU - все ок. В чем может быть засада? Заранее спасибо!
Я с тпу вообще не работал, но вот по всяким докам, и примерам работы торча на ТПУ, там вроде есть замороки по запуску, и вроде не так все очевидно