Телеграмм чат группы catboost

Oleg Okeev

В общем Стоит ли вручную обрабатывать все пропуски или Catboost их обработает?

в таргете наны не разрешены, в фичах разрешены

12:29пожаловаться #1

YB

Yury B in catboost_ru

Oscar Tempter

на все события в которых играет роль случайность, зафиксировав определенный random seed вы гарантируете одинаковую работу алгоритма везде где зафиксирован такой же random seed при прочих равных

спасибо

12:30пожаловаться #2

AD

CatBoost — Training parameters — Yandex Technologies

в таргете наны не разрешены, в фичах разрешены

про обработку нанов можно вот тут прочитать: https://tech.yandex.com/catboost/doc/dg/concepts/python-reference_parameters-list-docpage/ в описании параметра nan_mode

Yandex

Several parameters have aliases. For example, the iterations parameter has the following synonyms: num_boost_round, n_estimators, num_trees. Simultaneous usage of different names of one parameter raises an error.

12:34пожаловаться #3

OO

Oleg Okeev in catboost_ru

в таргете наны не разрешены, в фичах разрешены

А если не Nan, а Null?
И можно подробное что будет с колонкой, где часть NaN/Null? По ней будет делаться предсказание ?

16:03пожаловаться #4

AD

нуллы и наны одинаково обрабатываются

16:04пожаловаться #5

AD

Они будут преобразованы в число меньше, чем все значения фичи, либо больше, чем все значения фичи, так, чтобы наны гарантированно попадали в отдельный от всех остальных значений бакет при квантизации, которая перед обучением происходит.

16:04пожаловаться #6

AD

А для катфичей наны считаются отдельной категорией

16:05пожаловаться #7

AD

То есть да, колонка будет использоваться в том числе при наличии нанов.

16:06пожаловаться #8

MK

Они будут преобразованы в число меньше, чем все значения фичи, либо больше, чем все значения фичи, так, чтобы наны гарантированно попадали в отдельный от всех остальных значений бакет при квантизации, которая перед обучением происходит.

Что-то глядя на документацию это не очевидно.

“Min” — Each NaN float feature is processed as the minimum value from the dataset.
“Max” — Each NaN float feature is processed as the maximum value from the dataset.

Я предполагал что CatBoost берет минимальное значение и присваивает его всем NaN, поэтому вручную ставил что-то типа -999.

Если это работает так как вы сказали, то буду использовать. Думаю стоит в документации это пояснить.

18:23пожаловаться #9

MK

А для катфичей наны считаются отдельной категорией

Попробовал как это работает получил ошибку:

CatboostError: Invalid type for cat_feature[0,1]=nan : cat_features must be integer or string, real number values and NaN values should be converted to string.

Раньше вручную конвертировал в строку 'none'

18:51пожаловаться #10

MK

это шибка при создании пула Pool(x, y, cat_features=....)

18:53пожаловаться #11

AD

Maxim Khrisanfov

Что-то глядя на документацию это не очевидно.

“Min” — Each NaN float feature is processed as the minimum value from the dataset.
“Max” — Each NaN float feature is processed as the maximum value from the dataset.

Я предполагал что CatBoost берет минимальное значение и присваивает его всем NaN, поэтому вручную ставил что-то типа -999.

Если это работает так как вы сказали, то буду использовать. Думаю стоит в документации это пояснить.

Спасибо за фидбек, пофиксим!

18:56пожаловаться #12

AD

строкой можно, а так нельзя

18:56пожаловаться #13

AD

есть issue по этому поводу, там объяснено, почему так

18:57пожаловаться #14

AD

сейчас найду

18:57пожаловаться #15

AD

https://github.com/catboost/catboost/issues/571

GitHub

feature request: handling nan categorical features out of the box · Issue #571 · catboost/catboost

Feature Request: Catboost should handle nan categorical features, e.g. via marking it as a special categorical entry "Unknown" or via Mode Imputation. current state produces an er...

18:58пожаловаться #16

MK

ok, спасибо буду изучать)

18:59пожаловаться #17

MK

Как получить оригинальные названия классов таргета? Заметил что model.classes_ пустой после загрузки модели из файла (load_model), это баг или есть какой-то другой способ получить классы?

20:13пожаловаться #18

AD

Не реализовывали пока что model.classes_, добавим

20:22пожаловаться #19

MK

пока такое решение нашел

json.loads(model.get_metadata()['multiclass_params'])['class_names']

может кому пригодится