Я думаю сделать несколько кроссвалидаций вручную и отследить в каких фолдах скор лучше есть ли достоверная зависимость в содержащихся объектах по индексам. но это такааая отсебятина, может какие то умные люди уже чтото придумали нормальное человеческое
Можно забутстрапить, и посмотреть на распределение. Если оно явно ненормально перекошенное, то это может быть доводом в пользу теории. Еще, развивая идею ресемплинга, можно по ним посчитать корреляцию (присутствие примера) vs (итоговые метрики).
Из конкретно катбустовых, где-то в районе feature importance могли лежать аналогичные оценки для сэмплов, тут я точно не помню и не сориентирую.