Телеграмм чат группы catboost

Size: a a a

catboost_ru

2021 May 07

Да все верно, хочется aleatoric, epistemic uncertainty для классификации, по типу как это делается в байсовских нейронных сетях.

источник

10:13пожаловаться #1

K-S in catboost_ru

по идее если у модели, делающий точечный прогноз, низкое смещение, то можно через бутстрап построить интервал, но если модель сама по себе "стреляет" очень далеко от правды, то тогда и какой-нибудь 95% интервал скорее всего окажется кривым

источник

10:17пожаловаться #2

Sergey Agapov in catboost_ru

Я неверно написал. Нужено распределение выдаваемых вероятностей, а не доверительный интервал. В целом наверное можно что-то вручную сделать, если предположить что калибровка catboost хорошо совпадает с вероятностью. Для нейронных сетей можно все организовать через Dropout, и в теории это будет давать необходимое распределение.

источник

10:24пожаловаться #3

K-S in catboost_ru

распределение вероятностей, выдаваемых моделью? Так бутстрап же как раз эту проблему и решит

источник

10:26пожаловаться #4

Sergey Agapov in catboost_ru

Да, но что выдает калибровка и насколько random_seed на самом деле random? Это не очень понятно.

источник

10:27пожаловаться #5

K-S in catboost_ru

пост калибровку все равно придется делать. Катбуст как и другие деревянные модели все же скорее "оценки принадлежности" возвращает, а не вероятности в чистом виде

источник

10:28пожаловаться #6

Sergey Agapov in catboost_ru

Так то да. Думал может есть какая-то фича в catbooste которая сама все делает.

источник

10:29пожаловаться #7

2021 May 08

Alex Popov in catboost_ru

Подскажите, пожалуйста, в бинарной классификации какие параметры катбуста имеет смысл потюнить?

источник

14:58пожаловаться #8

КВ

Кирилл Власов... in catboost_ru

Вопрос слишком общий. В общем случае то же, что и для задачи регрессии. Попробуйте для начала уменьшить learning rate и увеличить количество итераций (деревьев). Измените глубину деревьев. Посмотрите на графики обучения на тесте/трейне, чтобы понять куда копать дальше.

Можете почитать эту страницу https://catboost.ai/docs/concepts/parameter-tuning.html

источник

16:26пожаловаться #9

Alex Popov in catboost_ru

Про основные параметры это и так понятно. Просто катбуст принимает больше сотни параметров, большую часть которых даже трогать не стоит, вот и хотел узнать что из практики чаще всего работает.

источник

16:51пожаловаться #10

Alex Popov in catboost_ru

image_2021-05-08_19-04-58.png

(16.7 Кб)

Может быть где-то можно посмотреть с какими параметрами запускали катбуст в этих тестах?

источник

17:04пожаловаться #11

Aleksei Ustimenko in catboost_ru

Полный аналог RMSEWithUncertainty для классификации - это predict_proba. Вам либо это, либо вы неправильно применяете это в регрессии.

источник

17:17пожаловаться #12

2021 May 10

Taras B in catboost_ru

@kizill ? Планируется допилить CatBoostRegressor?

источник

09:25пожаловаться #13

Alexey Yurasov in catboost_ru

Так вроде давно работает регрессор с текстовыми фичами

источник

09:50пожаловаться #14

Taras B in catboost_ru

В том то и дело, что нет) пишет, что нет таких параметров. И в доке их, кстати, тоже нет.

источник

09:52пожаловаться #15

Alexey Yurasov in catboost_ru

Текстовые это ведь категориальные
В регрессор надо передать список колонок с категориальными фичами
Вот например https://github.com/format37/1c_ml_regression_diagnostics/blob/master/cgi-bin/server.py

GitHub

format37/1c_ml_regression_diagnostics

1c diagnostics prediction, using linear regression - format37/1c_ml_regression_diagnostics

источник

09:56пожаловаться #16

Taras B in catboost_ru

Нет, текстовые это текстовые. text_features, как в классификаторе

источник

09:57пожаловаться #17

2021 May 12

Ruslan Nekhoroshkin in catboost_ru

Добрый день! Планируется ли добавление инференса модели с embeding фичами в c_api?

источник

12:35пожаловаться #18

2021 May 14

WaitForMeee (∩｀-´)⊃━... in catboost_ru

Подскажите в чем может быть дело.
Если передаю свой сплиттер, то кроссвалидация уходит в себя и не возвращается.

Дебаг и логи юпитера молчат.
Pool на 4 миллиона объектов, 73 фичи из них 22 Categ, + group_id, + auxilary колонки.
Если сам вызову spliter.split(X, y, groups), то все прекрасно работает.

источник

06:46пожаловаться #19

WaitForMeee (∩｀-´)⊃━... in catboost_ru

Проверил на амазоновском датасете из cv_tutorial.ipynb, там сделал group_id колонку MGR_ID и кроссвалидация нормально работает

источник

06:51пожаловаться #20