на том датасете так примерно и будет, там 1) Кат фичи 2) Ordered бустинг и очень маленький датасет
каждая из этих фичей увеличивает размер датасета, с которого GPU выгодно использовать. При неочень большом числе кат-фичей обычно это от ≈30к, без кат-фичей где-то от 15к, но сильно зависит от используемого CPU