Size: a a a

2019 May 20

Д

Дмитрий in catboost_ru
Что значит качество разбиения на классы, если их 2?
источник

A

Aнтон in catboost_ru
Дмитрий
Что значит качество разбиения на классы, если их 2?
Имеется ввиду, расстояние (в рамках выборки) до верного лейбла класса.
источник

Д

Дмитрий in catboost_ru
У Дьякова написано как строится AUC ROC, строится сетка, если верно, то вверх, если нет, то вправо, разве там есть про стоимость ошибки и расстояние?
источник

Д

Дмитрий in catboost_ru
Tpr и fpr это ошибки 1 и 2 рода получается?
источник

A

Aнтон in catboost_ru
Ок, про "стоимость" это я неправильно написал. А расстояние учитывается. В терминах "вверх, вправо", наверное это учитывается в том, что "чем раньше начался подъем", тем больше будет площадь под графиком.
источник

Д

Дмитрий in catboost_ru
Не совсем, например,
0 1
0 0
1 0
0 0
1 0

График имеет ступенчатый вид

0 0
1 0
0 1

Нет подъёма
источник

Д

Дмитрий in catboost_ru
Если раньше поднимается график, то монотонность не гарантируется ведь
источник

A

Aнтон in catboost_ru
Дмитрий
Если раньше поднимается график, то монотонность не гарантируется ведь
А разве монотонность не следует из построения?
источник

Д

Дмитрий in catboost_ru
По идеи, да, т.к. рандом это диагональ квадрата, она монотонна
источник

Д

Дмитрий in catboost_ru
Но не обязательно алгоритм работает лучше, с другой стороны, можно его инвертировать, если AUC ROC < 0.5
источник

A

Aнтон in catboost_ru
Не спорю, ROC AUC тоже не идеальный
источник

ИБ

Иван Брагин in catboost_ru
При расчете точности учитивается лишь то, что предсказание перепрынуло через какой то порог, при расчете ROC AUC учитывается изменение в любой паре разных предсказаний, то есть ROC AUC передает больше информации о качестве разделения на классы. Но иногда acc и auc могут двигаться в разные стороны, поэтому если нужно максимизировать именно acc то надо смотреть на неё, если не нужно, то лучше смотреть на auc
источник

ИБ

Иван Брагин in catboost_ru
Дмитрий
Не совсем, например,
0 1
0 0
1 0
0 0
1 0

График имеет ступенчатый вид

0 0
1 0
0 1

Нет подъёма
не очень понял пример, gt сортируется по предсказаниям, получается один столбец с сортированными gt, что имеется в виду во втором столбце?
ROC AUC всегда неубывающая.
по поводу чем раньше начался подъем тем больше auc от части не так, он может в начале не начать подниматься, например
0,0,0,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0...(1000 нулей)
будет лучше чем
1,1,1,1,0,..(1000 нулей),1,1,1,1,1,1,1
то есть во втором случае рашьше подъем но  auc будет меньше, тут важно перестановка единичек и ноликов, если единичка поменялась  с ноликом местами, то меняется auc
источник

A

Aнтон in catboost_ru
Иван Брагин
не очень понял пример, gt сортируется по предсказаниям, получается один столбец с сортированными gt, что имеется в виду во втором столбце?
ROC AUC всегда неубывающая.
по поводу чем раньше начался подъем тем больше auc от части не так, он может в начале не начать подниматься, например
0,0,0,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0...(1000 нулей)
будет лучше чем
1,1,1,1,0,..(1000 нулей),1,1,1,1,1,1,1
то есть во втором случае рашьше подъем но  auc будет меньше, тут важно перестановка единичек и ноликов, если единичка поменялась  с ноликом местами, то меняется auc
Ок, раз уж настаиваете, то уточню, что подразумевался одинаковый подъем - "в начале" vs "в конце", при прочих равных. Я бы мог написать про эти попарные перестановки, но это звучит ни разу не интуитивно понятно.
источник
2019 May 22

AD

Anna Veronika Dorogush in catboost_ru
Мы опубликовали новый блок документации FAQ https://catboost.ai/docs/concepts/faq.html, который содержит ответы на самые интересные вопросы про катбуст.
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Подскажите, как можно (и нужно ли?) посмотреть на существующую модель? Можно ли распечатать деревья, поглядеть, как они устроены?
источник

AD

Anna Veronika Dorogush in catboost_ru
1. Можно сконвертировать в json (есть туториал, в котором объясняется, как на него смотреть)
2. А еще в коде уже есть визуализация деревьев и туториал про нее. Будет в новом релизе, но уже сейчас можно сбилдить из исходников.
3. Также можно в обучение передать logging_level='Info', тогда во время обучения будут печататься фичи, которые выбраны в дереве.
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
ок, спасиб
источник

K

K-S in catboost_ru
Добрый день. Вопрос, наверняка, всплывал уже очень много раз, но я только перекатываюсь с LGBM на катбуст, поэтому не обессудьте.

Верно ли я понимаю, что если я хочу использовать mean target encoding для категориальных переменных, то катбуст его будет делать по дефолту "из коробочки" (или же по дефолту он кодирует иначе?) и мне не придётся заморачиваться с данным кодированием вручную, а главное - с валидацией.

Заранее большое спасибо.
источник
2019 May 23

IC

Igor Cage in catboost_ru
Подскажите пожалуйста, как обучать загруженную из файла модель?

Загружаю так
model = CatBoostRegressor()
model.load_model(model_path)

После обучаю, но модель как будто обучается заново с нуля
model.fit(train_data)

Заранее спасибо.
источник