Size: a a a

2020 January 16

AC

Alexander C in catboost_ru
Ясно. Но не удобно)
источник

AC

Alexander C in catboost_ru
В лгбм нет такого
источник

AD

Anna Veronika Dorogush in catboost_ru
Если я правильно помню, в lgbm только инты
источник

JS

Jury Sergeev in catboost_ru
так пусть нан отдельная категория будет
источник

AD

Anna Veronika Dorogush in catboost_ru
там выше в FAQ описано, почему так нельзя
источник

JS

Jury Sergeev in catboost_ru
имел в виду - пусть пользователь сам сделает из nan-значений новую категорию в переменной
источник
2020 January 19

N

Norx in catboost_ru
Optuna: A hyperparameter optimization framework

Optuna is an automatic hyperparameter optimization software framework, particularly designed for machine learning.

Code: https://github.com/optuna/optuna

Paper: https://arxiv.org/abs/1907.10902v1

Tutorial: https://optuna.org/
источник
2020 January 20

AS

Andrey Stroganov in catboost_ru
Подскажите пожалуйста, как с какими настройками лучше обучать модель для бинарной классификации, где максимизируемую функцию можно записать как = TP - FP. Ничего лучше --eval-metric Precision не нашел, но даже это не совсем то, что мне нужно.
источник

AC

Alexander C in catboost_ru
Norx
Optuna: A hyperparameter optimization framework

Optuna is an automatic hyperparameter optimization software framework, particularly designed for machine learning.

Code: https://github.com/optuna/optuna

Paper: https://arxiv.org/abs/1907.10902v1

Tutorial: https://optuna.org/
Ктоть пробовал?
источник

И

Илья in catboost_ru
Alexander C
Ктоть пробовал?
пробовал

могу попробовать найти видео,в которой про неё рассказывали
источник

АМ

Александр Мов in catboost_ru
Илья
пробовал

могу попробовать найти видео,в которой про неё рассказывали
Гуд, давай
источник

SS

Sergey Shalnov in catboost_ru
А подскажите пожалуйста как подбиратся комбинации категориальных и не только фичей?
В документации по max_ctr_complexity пишут
Each resulting combination consists of one or more categorical features and can optionally contain binary features in the following form: “numeric feature > value”.

А какие из numeric feature попадают в эти комбинации? Как определеятся value?

Пока не могу понять почему у меня модель с 2 категориальными фичами, f1 - 50000 значений, f2 -3 значения с  max_ctr_complexity=1 весит 5 Мб, а с max_ctr_complexity=2 уже 1000 Мб. Что он там накомбинировал и как можно немного уменьшить модель? )
источник
2020 January 21

ЕТ

Евгений Томилов in catboost_ru
Поясните, пожалуйста, когда я вывожу матрицу вероятностей классов для мультиклассовой классификации, почему у меня получаются суммы вероятностей классов от 0.19 до 1.73? Это нормально? Это баг? =(

Несколько часов уже сижу, в остальном коде нигде ошибки нет, это точно.

Или я неверно в данном случае понимаю понятие "вывод вероятности класса"?
источник

ЕТ

Евгений Томилов in catboost_ru
источник

ЕТ

Евгений Томилов in catboost_ru
При этом в R в сумме выдаёт единицы в тех же условиях.
источник

ИБ

Иван Брагин in catboost_ru
может путаешь мультикласс и мультилейбл.
multiclass - объект соответствует только ОДНОМУ классу. Например день недели (взаимоисключающие класса). Хотя можно придумать задачу где день недели будет не взаимоисключающим
multilable - объект может соответствовать нескольким классам.  Например животное на изображении (их может там оказаться много).
multiclass функция ошибки должна быть categorical cross entropy после softmax.  softmax сделает сумму вероятностей == 1.
multilable решается как sigmoid + binary crossentropy. Соответственно получаем вероятности наличия класса в объекте. И, например если объект принадлежит трем классам, то сумма вероятностей может стать три, и это норм
источник

ИБ

Иван Брагин in catboost_ru
блин, только заметил что это чатик кэтбуста, тут, наверно, мой ответ может оказаться не совсем точным, не знаю как multiclass работает в catboost
источник

AD

Anna Veronika Dorogush in catboost_ru
Возможно проставлен режим MultiClassOneVsAll, там вероятности бинарные, поэтому не суммируются в единицу
источник

AD

Anna Veronika Dorogush in catboost_ru
Если стоит режим MultiClass, то пожалуйста, сделай issue на гитхабе с воспроизводимым примером, где для предсказания используется predict_proba или тип Probability. Посмотрим, что там не так.
источник

BD

Bakhruz Dzhafarov in catboost_ru
Привет! Попытался сделать кастомную метрику на с++, но застрял на этапе запуска make: делал по инструкции из catboost/catboost/python-package/README.md, но словил ошибку
clang-7: error: no such file or directory: 'PYTHON-NOT-FOUND'
Если кто-то сталкивался с подобным, то можете подсказать, в какую сторону копать
источник