Size: a a a

2019 June 19

A

Andrey in catboost_ru
А почему нет? Просто для разных распределений нужно подбирать подходящие функции потерь
источник

DC

Danya Chepenko in catboost_ru
Или можно взять логарифм
источник

S

Stanislav in catboost_ru
не мог ли бы подсказать
catboost работает с категориальными данными, те сам делает преобразование типа хоткодинга, но допустим у меня не сбалансированные данные в которых есть столбцы с  данными типа object  
есть ли в catboost аналог SMOTE?
или мне надо самому хоткодить и использовать smote, а потом передавать в catboost?
источник

PA

Pavel Ajtkulov in catboost_ru
а что возвращает CatBoostRegressor.predict()? Нужно ли к этому числу еще какое-то преобразование? На входе при обучении были только 0 и 1, хочется получить на выходе вещественное от 0 до 1. Могу ли я линейно это растянуть на [0; 1]?
источник

PA

Pavel Ajtkulov in catboost_ru
источник

R

Roman in catboost_ru
Так, быть может, у вас данные на тесте такие?
источник

MK

Maxim Khrisanfov in catboost_ru
Pavel Ajtkulov
а что возвращает CatBoostRegressor.predict()? Нужно ли к этому числу еще какое-то преобразование? На входе при обучении были только 0 и 1, хочется получить на выходе вещественное от 0 до 1. Могу ли я линейно это растянуть на [0; 1]?
Похоже вам классификация нужна (CatBoostClassifier)
источник

R

Roman in catboost_ru
И, если у тебя на трейне были только 0 и 1, то вам, наверное лучше решать задачу классификации и делать predict_proba
источник

PA

Pavel Ajtkulov in catboost_ru
бизнес задача - она регрессии. Сделал классификацию и predict_proba, на классе с 1, получил точно такую же гистограмму, как на картинке выше. Так что видимо регрессия ту же вероятность и выдает
источник

RV

Roman Vasilyev in catboost_ru
Pavel Ajtkulov
бизнес задача - она регрессии. Сделал классификацию и predict_proba, на классе с 1, получил точно такую же гистограмму, как на картинке выше. Так что видимо регрессия ту же вероятность и выдает
Вам нужно предсказать, к какому из 2 классов относится объект, так?)
источник

PA

Pavel Ajtkulov in catboost_ru
для каждого объекта (клиента) выдать вещественное число от 0 до 1, "степень похожести" (не совсем прямо вероятности), на основании чего формируется еще 3-5 классов (от 0-0.3; 0.3-0.5; 0.5-8; 0.8-1; вообще бедные/бедные/может купят/скорее всего купят) и применяются разные бизнес-правила.
источник

RV

Roman Vasilyev in catboost_ru
Pavel Ajtkulov
для каждого объекта (клиента) выдать вещественное число от 0 до 1, "степень похожести" (не совсем прямо вероятности), на основании чего формируется еще 3-5 классов (от 0-0.3; 0.3-0.5; 0.5-8; 0.8-1; вообще бедные/бедные/может купят/скорее всего купят) и применяются разные бизнес-правила.
Степень схожести - это и есть вероятность (модель отдаёт степень уверенности в том, что данный объект принадлежит к данному классу), разве нет?
источник

PA

Pavel Ajtkulov in catboost_ru
кто-то где-то обманывает(ся). Есть код на R с randomForest, на тех же данных. Там распределение иное, и полноценно от 0 до 1 числа. У меня в тестовой выборке есть 300+ положительных примеров (с единицами),  думал что явно должно 0.5 пробить. Надо спокойно проверить все.
источник

K

K-S in catboost_ru
1) какой у вас баланс классов на трейне/тесте?

2) сравнивать в лоб оценки принадлежности, выдаваемые разными алгоритмами - не совсем корректно.

3) что используется в качестве метрики качества и какие показатели на cv/тесте выдают катбуст и случайный лес, с которым вы сравниваете?
источник

PA

Pavel Ajtkulov in catboost_ru
переформулирую, то есть для предикшина я должен вызвать select_threshold с желаемым FNR/FPR, и уже фильтровать predict_proba по этому значению. Смотреть на сами значения predict_proba смысла нет. Это верно? (в этом случае я понял, где я заблуждаюсь)
источник
2019 June 20

M

MVP Владимир in catboost_ru
источник
2019 June 21

SN

Sergej Novik in catboost_ru
Запускаю на 36 CPU, а по факту загрузка всех цпу только около 30%. Почему и как нагрузить на 100%?
источник

АМ

Александр Мов in catboost_ru
@annaveronika это не вы сейчас вдоль кутузовского от сбера идете? =)
источник

K

K-S in catboost_ru
Александр Мов
@annaveronika это не вы сейчас вдоль кутузовского от сбера идете? =)
источник

K

K-S in catboost_ru
Ну ты следователь
источник