Телеграмм чат группы catboost

Коллеги, вопрос на тему "дообучения" уже имеющейся модели - если взять модель М1 обученную на признаках Х1, и дообучить её добавив в тот же датасет признаки Х2 и получив модель М2, то может ли эта модель М2 быть измеримо хуже, чем модель, которая изначально строилась на обоих наборах признаков Х1+Х2 ?

источник

21:26пожаловаться #5

Aнтон in catboost_ru

При прочих равных

источник

21:26пожаловаться #6

Aнтон in catboost_ru

Или скорее "обученная за то же время"

источник

21:30пожаловаться #7

Aнтон in catboost_ru

В контексте catboost это Pool(..., baseline=train_baseline)

источник

21:31пожаловаться #8

Aнтон in catboost_ru

Или скорее параметр snapshot_file в методе fit

источник

21:33пожаловаться #9

Aнтон in catboost_ru

Наверное вопрос можно перефразировать - можно ли на первой итерации так испортить модель (уйти в локальной максимум), что на второй её уже не исправишь до того же приблизительно того же качества, которое могло бы быть изначально (т.е. не вытянешь ближе к глобальному максимуму, за тот же отрезок времени)

источник

21:38пожаловаться #10

Aнтон in catboost_ru

И на самом деле вопрос скорее про "как у вас на практике обычно выходит", потому что в теории и так понятно, что можно искуственно такие данные подобрать в Х1, что первая модель уедет куда-то далеко от оптимума

источник

21:54пожаловаться #11

Blen obema in catboost_ru

А есть смысл нормализовать данные перед подачей их в катбуст?

источник

23:46пожаловаться #12

K-S in catboost_ru

Blen obema

А есть смысл нормализовать данные перед подачей их в катбуст?

Деревьям нормализация не нужна

источник

23:49пожаловаться #13

Blen obema in catboost_ru

Спасибо

источник

23:50пожаловаться #14

Stanislav Kirillov in catboost_ru

Blen obema

А есть смысл нормализовать данные перед подачей их в катбуст?

https://catboost.ai/docs/concepts/binarization.html#binarization - для флоатных фичей применяется квантизация, можно тут посмотреть какие способы построения границ есть

catboost.ai

Binarization

Before learning, the possible values of objects are divided into disjoint ranges (buckets) delimited by the threshold values (splits). The size of the binarization (the number of splits) is determined by the starting parameters (separately for numerical features and numbers obtained as a result of converting categorical features into numerical features).

источник

23:52пожаловаться #15

Blen obema in catboost_ru

Stanislav Kirillov

catboost.ai

Binarization

Благодарю!

источник

23:52пожаловаться #16