При применении из CLI CatBoost читает датасет блоками не больше чем фиксированное число документов, при этом если данные по группам, то есть техническое ограничение, чтобы размер блока был не больше самой большой группы.
Это ограничение планируется исправить.
Пока для применения, если это не расчет метрик, где учитываются группы, могу посоветовать передавать cd-файл где не будет колонок GroupId/QueryId и SubgroupId, а соответствующие колонки будут помечены как Auxiliary.