Size: a a a

2021 May 07

SA

Sergey Agapov in catboost_ru
Да все верно, хочется aleatoric, epistemic uncertainty для классификации, по типу как это делается в байсовских нейронных сетях.
источник

K

K-S in catboost_ru
по идее если у модели, делающий точечный прогноз, низкое смещение, то можно через бутстрап построить интервал, но если модель сама по себе "стреляет" очень далеко от правды, то тогда и какой-нибудь 95% интервал скорее всего окажется кривым
источник

SA

Sergey Agapov in catboost_ru
Я неверно написал. Нужено распределение выдаваемых вероятностей, а не доверительный интервал. В целом наверное можно что-то вручную сделать, если предположить что калибровка catboost хорошо совпадает с вероятностью. Для нейронных сетей можно все организовать через Dropout, и в теории это будет давать необходимое распределение.
источник

K

K-S in catboost_ru
распределение вероятностей, выдаваемых моделью? Так бутстрап же как раз эту проблему и решит
источник

SA

Sergey Agapov in catboost_ru
Да, но что выдает калибровка и насколько random_seed на самом деле random? Это не очень понятно.
источник

K

K-S in catboost_ru
пост калибровку все равно придется делать. Катбуст как и другие деревянные модели все же скорее "оценки принадлежности" возвращает, а не вероятности в чистом виде
источник

SA

Sergey Agapov in catboost_ru
Так то да. Думал может есть какая-то фича в catbooste которая сама все делает.
источник
2021 May 08

AP

Alex Popov in catboost_ru
Подскажите, пожалуйста, в бинарной классификации какие параметры катбуста имеет смысл потюнить?
источник

КВ

Кирилл Власов... in catboost_ru
Вопрос слишком общий. В общем случае то же, что и для задачи регрессии. Попробуйте для начала уменьшить learning rate и увеличить количество итераций (деревьев). Измените глубину деревьев. Посмотрите на графики обучения на тесте/трейне, чтобы понять куда копать дальше.

Можете почитать эту страницу https://catboost.ai/docs/concepts/parameter-tuning.html
источник

AP

Alex Popov in catboost_ru
Про основные параметры это и так понятно. Просто катбуст принимает больше сотни параметров, большую часть которых даже трогать не стоит, вот и хотел узнать что из практики чаще всего работает.
источник

AP

Alex Popov in catboost_ru
Может быть где-то можно посмотреть с какими параметрами запускали катбуст в этих тестах?
источник

AU

Aleksei Ustimenko in catboost_ru
Полный аналог RMSEWithUncertainty для классификации - это predict_proba. Вам либо это, либо вы неправильно применяете это в регрессии.
источник
2021 May 10

TB

Taras B in catboost_ru
@kizill ? Планируется допилить CatBoostRegressor?
источник

AY

Alexey Yurasov in catboost_ru
Так вроде давно работает регрессор с текстовыми фичами
источник

TB

Taras B in catboost_ru
В том то и дело, что нет) пишет, что нет таких параметров. И в доке их, кстати, тоже нет.
источник

AY

Alexey Yurasov in catboost_ru
Текстовые это ведь категориальные
В регрессор надо передать список колонок с категориальными фичами
Вот например https://github.com/format37/1c_ml_regression_diagnostics/blob/master/cgi-bin/server.py
источник

TB

Taras B in catboost_ru
Нет, текстовые это текстовые. text_features, как в классификаторе
источник
2021 May 12

RN

Ruslan Nekhoroshkin in catboost_ru
Добрый день! Планируется ли добавление инференса модели с embeding фичами в c_api?
источник
2021 May 14

W(

WaitForMeee (∩`-´)⊃━... in catboost_ru
Подскажите в чем может быть дело.
Если передаю свой сплиттер, то кроссвалидация уходит в себя и не возвращается.

Дебаг и логи юпитера молчат.
Pool на 4 миллиона объектов, 73 фичи из них 22 Categ, + group_id, + auxilary колонки.
Если сам вызову spliter.split(X, y, groups), то все прекрасно работает.
источник

W(

WaitForMeee (∩`-´)⊃━... in catboost_ru
Проверил на амазоновском датасете из cv_tutorial.ipynb, там сделал group_id колонку MGR_ID и кроссвалидация нормально работает
источник