по идее если у модели, делающий точечный прогноз, низкое смещение, то можно через бутстрап построить интервал, но если модель сама по себе "стреляет" очень далеко от правды, то тогда и какой-нибудь 95% интервал скорее всего окажется кривым
Я неверно написал. Нужено распределение выдаваемых вероятностей, а не доверительный интервал. В целом наверное можно что-то вручную сделать, если предположить что калибровка catboost хорошо совпадает с вероятностью. Для нейронных сетей можно все организовать через Dropout, и в теории это будет давать необходимое распределение.
пост калибровку все равно придется делать. Катбуст как и другие деревянные модели все же скорее "оценки принадлежности" возвращает, а не вероятности в чистом виде
Вопрос слишком общий. В общем случае то же, что и для задачи регрессии. Попробуйте для начала уменьшить learning rate и увеличить количество итераций (деревьев). Измените глубину деревьев. Посмотрите на графики обучения на тесте/трейне, чтобы понять куда копать дальше.
Про основные параметры это и так понятно. Просто катбуст принимает больше сотни параметров, большую часть которых даже трогать не стоит, вот и хотел узнать что из практики чаще всего работает.
Подскажите в чем может быть дело. Если передаю свой сплиттер, то кроссвалидация уходит в себя и не возвращается.
Дебаг и логи юпитера молчат. Pool на 4 миллиона объектов, 73 фичи из них 22 Categ, + group_id, + auxilary колонки. Если сам вызову spliter.split(X, y, groups), то все прекрасно работает.