Не владею терминологией ML. Фичи-документы это столбцы-строки?
Я просто представляю себе catboost как черный ящик на вход которого подается массив данных, а catboost ищет корреляции.
Когда я говорю "десятки террабайт" я имею ввиду оптимально оцифрованные данные (ну, например, категории это int'ы а не строки)