Size: a a a

2019 May 23

P🐈

Pavel Tyavin 🐈 in catboost_ru
Stanislav Kirillov
3 категориальные с 99/59/1743 - у нас по умолчанию one_hot_max_size == 2
А почему по-умолчанию 2?
источник

DD

Dmitry Donchenko in catboost_ru
Подскажите пожалуйста, что означает ctrs (из документации catboost по категориальным фичам).
источник

ИБ

Иван Брагин in catboost_ru
Dmitry Donchenko
Подскажите пожалуйста, что означает ctrs (из документации catboost по категориальным фичам).
click through rates думаю. единички/(единички+нолики) в рамках категории или всего датасета
источник

DD

Dmitry Donchenko in catboost_ru
А можете посоветовать пожалуйста, где про это можно почитать? Как я понимаю, это работает лучше, чем one-hot encoding, но требует больших вычислительных ресурсов
источник
2019 May 24

AS

Arthur Suilin in catboost_ru
Коллеги, не подскажете, как CatBoost работает с длинным хвостом из низкочастотных значений в категорийных фичах? Надо этот хвост отфильтровать вручную, чтобы не было переобучения, или CatBoost сам справится?
источник

AD

Anna Veronika Dorogush in catboost_ru
Arthur Suilin
Коллеги, не подскажете, как CatBoost работает с длинным хвостом из низкочастотных значений в категорийных фичах? Надо этот хвост отфильтровать вручную, чтобы не было переобучения, или CatBoost сам справится?
переобучения не должно быть, но может получиться большая модель. Если будет такая проблема, можно отфильтровать эти значения либо действовать по инструкции в доке "что делать, если модель большая
источник

AS

Arthur Suilin in catboost_ru
Спасибо!
источник

Д

Дмитрий in catboost_ru
Иван, здравствуйте, первый столбец это входные данные, а второй predict, не убывающая, мы писали про то, что будет константа, поэтому и привел похожие примеры
источник

Д

Дмитрий in catboost_ru
не очень понял пример, gt сортируется по предсказаниям, получается один столбец с сортированными gt, что имеется в виду во втором столбце?
ROC AUC всегда неубывающая.
по поводу чем раньше начался подъем тем больше auc от части не так, он может в начале не начать подниматься, например
0,0,0,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0...(1000 нулей)
будет лучше чем
1,1,1,1,0,..(1000 нулей),1,1,1,1,1,1,1
то есть во втором случае рашьше подъем но  auc будет меньше, тут важно перестановка единичек и ноликов, если единичка поменялась  с ноликом местами, то меняется auc
источник

Д

Дмитрий in catboost_ru
За ответ спасибо)
источник
2019 May 26

Д

Дмитрий in catboost_ru
Всем привет, никто случайно не знает как accuracy преобразовать в balanced accuracy, зная P и N?
источник

Д

Дмитрий in catboost_ru
источник

Д

Дмитрий in catboost_ru
А, ещё известно самое значение accuracy
источник

Bo

Blen obema in catboost_ru
Дмитрий
А, ещё известно самое значение accuracy
Можешь свою функцию точности написать
источник

Bo

Blen obema in catboost_ru
Используя формулу со скрина
источник

Bo

Blen obema in catboost_ru
Даже вроде можно ж свои метрики делать, чтобы выбирать оптимальное кол-во деревьев
источник

Bo

Blen obema in catboost_ru
Берешь confusion matrix из sklearn из неё TP TN P N и делаешь свою функцию для BACC
источник

Д

Дмитрий in catboost_ru
Можно так, но я считаю это в C#
источник

Bo

Blen obema in catboost_ru
ааа
источник

Д

Дмитрий in catboost_ru
Экспортирую 2 столбца, первый это начальные значения, второй - посчитанные
источник