Телеграмм чат группы catboost

@annaveronika не могли бы вы в гитхабе актуализировать метки "in progress", многим задачам с этими метками уже больше года, не понятно над чем сейчас ведется работа.

готово

источник

19:06пожаловаться #8

MK

Maxim Khrisanfov in catboost_ru

Anna Veronika Dorogush

готово

спасибо) стало лучше

источник

19:06пожаловаться #9

AD

Anna Veronika Dorogush in catboost_ru

Andrei

крутяк! буду следить

а пока не добавили, есть альтернатива вашему чудесному визуализатору?

Заполни, пожалуйста, опрос про то, чего не хватает в катбусте: https://forms.yandex.ru/surveys/10011699/?lang=en
Кросс-валидацию улучшать там пока что никто не просил

источник

20:31пожаловаться #10

2019 April 16

K

Konstantin S in catboost_ru

Скажите, а можно сделать кросс-валидацию с группировкой? Например, в данных есть повторяющиеся ID,но описание по этим ID немного отличается и в CV они не должны попасть в разные группы. Сейчас приходится самому группировать и строить вручную CV, не удобно :(

источник

09:15пожаловаться #11

A

Aнтон in catboost_ru

Konstantin S

Скажите, а можно сделать кросс-валидацию с группировкой? Например, в данных есть повторяющиеся ID,но описание по этим ID немного отличается и в CV они не должны попасть в разные группы. Сейчас приходится самому группировать и строить вручную CV, не удобно :(

sklearn.model_selection.GroupKFold не?

источник

10:17пожаловаться #12

АМ

Александр Мов in catboost_ru

Угу

источник

10:24пожаловаться #13

K

Konstantin S in catboost_ru

Крутяк, спасибо, не знал про такой метод :)

источник

11:08пожаловаться #14

K

Konstantin S in catboost_ru

А в catboost внутри не предполагается реализация такая ?

источник

11:12пожаловаться #15

AD

Anna Veronika Dorogush in catboost_ru

Konstantin S

А в catboost внутри не предполагается реализация такая ?

По идее, если у тебя есть GroupId у пула, то будет группировка с учетом групп. Проверим, отпишемся. Но должно быть так, если не так, то это баг.

источник

11:14пожаловаться #16

K

Konstantin S in catboost_ru

Спасибо!

источник

11:16пожаловаться #17

A

Aнтон in catboost_ru

А у меня вот 3 вопроса на тему custom objective (мануал почитал по диагонали):
1) На ресурсе catboost.ai даётся пример кастомной функции потерь через отдельный класс (class LogLossObjective). На гитхабе в туториале пример приведён уже на плюсах через метод Eval (TUserDefinedPerObjectMetric::Eval). Анна где-то писала, что делать эту фичу на питоне не рекомендуется, будет долго работать (охотно верю). Значит ли это, что пример с гитхаба более релевантный?
2) В примере на плюсах метод Eval принимает, помимо прогноза, таргета и веса, ещё и TQuaryInfo. Где можно почитать про содержимое последнего?
3) Для чего я это все спрашиваю - хочу, чтобы при определении оптимального разделения на листья (задача Multilabel classification, не путать с Multiclass) в случае если для одного из лейблов слишком мало наблюдений (в этой части дерева), то бралась бы оценка ошибки из родительского листа. Достижимо ли это вообще в текущей реализации?

источник

11:28пожаловаться #18

AD

Anna Veronika Dorogush in catboost_ru

Anna Veronika Dorogush

По идее, если у тебя есть GroupId у пула, то будет группировка с учетом групп. Проверим, отпишемся. Но должно быть так, если не так, то это баг.

Да, все правильно, partition делается с учетом GroupId

источник

11:32пожаловаться #19

AD

Anna Veronika Dorogush in catboost_ru

Aнтон

А у меня вот 3 вопроса на тему custom objective (мануал почитал по диагонали):
1) На ресурсе catboost.ai даётся пример кастомной функции потерь через отдельный класс (class LogLossObjective). На гитхабе в туториале пример приведён уже на плюсах через метод Eval (TUserDefinedPerObjectMetric::Eval). Анна где-то писала, что делать эту фичу на питоне не рекомендуется, будет долго работать (охотно верю). Значит ли это, что пример с гитхаба более релевантный?
2) В примере на плюсах метод Eval принимает, помимо прогноза, таргета и веса, ещё и TQuaryInfo. Где можно почитать про содержимое последнего?
3) Для чего я это все спрашиваю - хочу, чтобы при определении оптимального разделения на листья (задача Multilabel classification, не путать с Multiclass) в случае если для одного из лейблов слишком мало наблюдений (в этой части дерева), то бралась бы оценка ошибки из родительского листа. Достижимо ли это вообще в текущей реализации?

1. Оба примера релевантны. Быстрее будет на плюсах.
2. Эта структура нужна, чтобы ранжирующие лоссы можно было писать. Напишем про это поподробнее в туториале, сделай, пожалуйста, issue.
3. Не уверена, что такое получится

источник

11:35пожаловаться #20