Size: a a a

2021 March 13

AK

Andrei Khropov in catboost_ru
> Из конкретно катбустовых, где-то в районе feature importance могли лежать аналогичные оценки для сэмплов

https://catboost.ai/docs/concepts/python-reference_catboost_get_object_importance.html
источник
2021 March 14

PB

Polina Bezrukavaja in catboost_ru
Andrew
Можно забутстрапить, и посмотреть на распределение. Если оно явно ненормально перекошенное, то это может быть доводом в пользу теории. Еще, развивая идею ресемплинга, можно по ним посчитать корреляцию (присутствие примера) vs (итоговые метрики).
Из конкретно катбустовых, где-то в районе feature importance могли лежать аналогичные оценки для сэмплов, тут я точно не помню и не сориентирую.
Спасибо! Точно, бутстрап. Не пришло в голову
источник

PB

Polina Bezrukavaja in catboost_ru
Круто, спасиБо!
источник
2021 March 15

ВК

Вячеслав Колосков... in catboost_ru
Polina Bezrukavaja
Кейс: очень маленький датасет (на 800 объектов). Задача бинарной классификации. При перемене random_state СИЛЬНО скачат метрики, зафиксированны перепады до 20 проц при чем roc_auc падает, f1 растет и наоборот. GridSearchCV best score выдает всегда значительно ниже чем последующий best estimator отдельно. Есть гипотеза,  что часть объектов очень полезна для модели и хорошо ее обучает и когда эти оъекты выпадают из train, модель начинает хуже предсказывать. Можно ли как то достоверно проверить это? выявить эти объекты?
А вы делаете стратифицированое разбиение?
источник

PB

Polina Bezrukavaja in catboost_ru
Вячеслав Колосков
А вы делаете стратифицированое разбиение?
Да
источник

ВК

Вячеслав Колосков... in catboost_ru
Может если выборка маленькая имеет смысл делать кросс-валилацию методом loo
источник

PB

Polina Bezrukavaja in catboost_ru
такой метод не знаю, спасибо, посмотрю
источник
2021 March 17

AP

Alex Popov in catboost_ru
cv возвращает статистику. А сами модели как сохранить?
scores = cv(cv_dataset, params, fold_count=2)
источник

SK

Stanislav Kirillov in catboost_ru
Прямо сейчас - никак, но мы очень ждем скорого PR на эту тему
источник

AP

Alex Popov in catboost_ru
Интересная логика. В чем тогда смысл метода cv? Посмотреть телевизор можно, только не включай...)
источник
2021 March 18

A

Algorc in catboost_ru
Alex Popov
Интересная логика. В чем тогда смысл метода cv? Посмотреть телевизор можно, только не включай...)
я себе это объяснял так: ты с помощью удобного черного ящика получил оценку обобщающей спосоности с помощью высокоуровневой функции.
т.е. это заточено под цикл подбора гиперпараметров, да.

Но модельки иногда тоже хочется. Хорошо, что PR на горизонте.
источник

SK

Stanislav Kirillov in catboost_ru
Alex Popov
Интересная логика. В чем тогда смысл метода cv? Посмотреть телевизор можно, только не включай...)
Леша в целом правильно сформулировал, логика - провести кроссвалидацию набора параметров и/или фичей. Если ты просто так будешь подбирать параметры, ты можешь их подобрать для своего текущего разбиения train/test и это может быть не ок. То, что модельки не возвращаются это не концептуальная проблема, не by desing, просто мы не написали код ¯ \ _ (ツ) _ / ¯ Скоро это пофиксится 🙂
источник

A

Algorc in catboost_ru
Stanislav Kirillov
Леша в целом правильно сформулировал, логика - провести кроссвалидацию набора параметров и/или фичей. Если ты просто так будешь подбирать параметры, ты можешь их подобрать для своего текущего разбиения train/test и это может быть не ок. То, что модельки не возвращаются это не концептуальная проблема, не by desing, просто мы не написали код ¯ \ _ (ツ) _ / ¯ Скоро это пофиксится 🙂
от меня тогда вопрос: я же сейчас уже могу свой splitter пробросить в cv? (например для time series) ?
источник

AP

Alex Popov in catboost_ru
Почему-то на GPU loss стабильно выше чем на CPU. Это всегда так или есть какая-то хитрая настройка?
источник
2021 March 23

TB

Taras B in catboost_ru
@kizill Какая судьба у нового релиза? уж очень хочется эмбединги использовать
источник

L

LS in catboost_ru
Taras B
@kizill Какая судьба у нового релиза? уж очень хочется эмбединги использовать
@kizill поддержу вопрос 😌

будут ли улучшения по скорости и качеству?)
источник

SK

Stanislav Kirillov in catboost_ru
Привет! Сегодня будет релиз 0.25, я запощу сюда чейнджлог. К сожалению, в этот релиз не попали улучшения про скорость эмбеддингов, но они выкатятся с минором в течении ближайших 10 дней.
источник

SK

Stanislav Kirillov in catboost_ru
По скорости кратко - всеми "любимая" проблема скорости cv метода пофикшена, он ускорился в разы и теперь использует все ядра. Так же ускорили несимметричные деревья в 3.5 раза и в целом весь катбуст на 10%. Остальное в релиз нотах
источник

🗯

🗯 in catboost_ru
🔥🔥🔥
источник

ЕП

Евгений Петров... in catboost_ru
🗯
🔥🔥🔥
над возвратом моделей из cv трудится подающий надежды внешний контрибьютор
источник