Ну, мы вот учим на суперкомпьютере, в разных шкафах, и норм. Там есть методы распределённого обучения, да и матрицы можно хранить с учётом топологии. TPU - это, конечно, круто, но не у всех есть.
Другие методы тоже хорошо распараллеливаются по данным.
Ну, и вы путаете градиентный бустиг и спуск.