Size: a a a

2019 April 04

SS

Sergey Shalnov in catboost_ru
Да, после SNA2019 для меня так и остались загадкой несколько вопросов:
1. Как же всё таки по умолчанию преобразуются кат фичи? https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html#algorithm-main-stages_cat-to-numberic - тут нет ничего про дефолтные значения. Дальше это всё бьётся на бины, но тоже нигде нет упоминания про дефолтные значения. Например в описании simple_ctr
2. Почему нельзя засунуть в cat_features int32 колонку когда создаёшь пул из FeaturesData? С чем связано такое ограничение?
3. Чем ещё, кроме кол-ва бинов, по дефолту отличаются CPU и GPU режимы бинарной классификации. У меня результат на GPU получался лучше, но я так и не раскопал из за какого именно параметра)
4. Почему же у нас с Иван Брагин так и не взлетел Learning to Rank ни в одном из вариантов, хотя мы перепробовали и YetiRank и QueryCrossEntropy и PairLogit? Вроде по логике такой подход ближе к целевой метрике соревнования, что можете посоветовать попробовать?
источник

AD

Anna Veronika Dorogush in catboost_ru
> 1. Как же всё таки по умолчанию преобразуются кат фичи? https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html#algorithm-main-stages_cat-to-numberic - тут нет ничего про дефолтные значения. Дальше это всё бьётся на бины, но тоже нигде нет упоминания про дефолтные значения. Например в описании simple_ctr

Мы планируем подробный туториал про это, просто пока руки не дошли
источник

AD

Anna Veronika Dorogush in catboost_ru
> 2. Почему нельзя засунуть в cat_features int32 колонку когда создаёшь пул из FeaturesData? С чем связано такое ограничение?

Это временно, пока не реализовали по-другому. Планируем сделать специальный тип - хешированная катфича. Тогда можно будет.
источник

AD

Anna Veronika Dorogush in catboost_ru
> 3. Чем ещё, кроме кол-ва бинов, по дефолту отличаются CPU и GPU режимы бинарной классификации. У меня результат на GPU получался лучше, но я так и не раскопал из за какого именно параметра)

И про это планируем туториал
источник

SS

Sergey Shalnov in catboost_ru
Anna Veronika Dorogush
> 3. Чем ещё, кроме кол-ва бинов, по дефолту отличаются CPU и GPU режимы бинарной классификации. У меня результат на GPU получался лучше, но я так и не раскопал из за какого именно параметра)

И про это планируем туториал
Ну хоть примерно? )
источник

AD

Anna Veronika Dorogush in catboost_ru
> 4. Почему же у нас с Иван Брагин так и не взлетел Learning to Rank ни в одном из вариантов, хотя мы перепробовали и YetiRank и QueryCrossEntropy и PairLogit? Вроде по логике такой подход ближе к целевой метрике соревнования, что можете посоветовать попробовать?

Не знаю, про что было соревнование, но очень советую вместо YetiRank и PairLogit использовать YetiRankPairwise и PairLogitPairwise, они дольше учатся, но в итоге обычно лучше.
источник

AS

Artem Seleznev in catboost_ru
Привет 👋  сообщество и разработчики нашего любимого Буста.

Завтра ☝️будет внутренняя лекция в МегаФоне, где будет представлено решение на CatBoost.

После этого ряд публикаций на хабре об этом бустинге!
источник

AD

Anna Veronika Dorogush in catboost_ru
Sergey Shalnov
Ну хоть примерно? )
На самом деле не так много отличий. Есть несколько параметров, которые не поддержаны пока что на гпу. Например, model_size_reg. На цпу он по умолчанию ненулевой, если его убрать, то модель будет больше, но возможно качество немного улучшится. Но вообще мы подбирали так, чтобы качество не ухудшалось. Есть набор параметров, которых наоборот нет на цпу. В принципе качество от перехода между гпу и цпу меняться должно очень мало. Не больше, чем от изменения рандом сида.
источник

AD

Anna Veronika Dorogush in catboost_ru
Artem Seleznev
Привет 👋  сообщество и разработчики нашего любимого Буста.

Завтра ☝️будет внутренняя лекция в МегаФоне, где будет представлено решение на CatBoost.

После этого ряд публикаций на хабре об этом бустинге!
Ура-ура!
источник

AC

Alexander C in catboost_ru
Коллеги, как ваш
биннинг работает?
источник

AS

Artem Seleznev in catboost_ru
источник

AD

Anna Veronika Dorogush in catboost_ru
Alexander C
Коллеги, как ваш
биннинг работает?
ты про квантизацию во время предобработки?
источник

AC

Alexander C in catboost_ru
Anna Veronika Dorogush
ты про квантизацию во время предобработки?
Да
источник

AD

Anna Veronika Dorogush in catboost_ru
Вот тут есть описания поддержанных биннингов https://catboost.ai/docs/concepts/binarization.html.
По умолчанию оптимизируем сумму логарифмов жадностью (GreedyLogSum).
Это быстро и хорошо работает. Можно динамикой точное решение находить (MaxLogSum и MinEntropy), это дольше, а работает на самом деле также. Еще можно Uniform например делать, тогда ты будешь смотреть на абсолютные значения фичей.
источник

AC

Alexander C in catboost_ru
Anna Veronika Dorogush
Вот тут есть описания поддержанных биннингов https://catboost.ai/docs/concepts/binarization.html.
По умолчанию оптимизируем сумму логарифмов жадностью (GreedyLogSum).
Это быстро и хорошо работает. Можно динамикой точное решение находить (MaxLogSum и MinEntropy), это дольше, а работает на самом деле также. Еще можно Uniform например делать, тогда ты будешь смотреть на абсолютные значения фичей.
Спасибо посмотрю
источник

Аa

Андрей amber4eg in catboost_ru
А я говорил, что картинка с котиком - самая классная
источник

AS

Artem Seleznev in catboost_ru
Андрей amber4eg
А я говорил, что картинка с котиком - самая классная
Эх, еще бы стикер такой раздобыть 😊
источник

Аa

Андрей amber4eg in catboost_ru
В фотках чатика есть фото с крышки моего ноутбука :like-a-boss:
источник

Аa

Андрей amber4eg in catboost_ru
Или ты про стикеры телеги?
источник

A

Andrei in catboost_ru
как в catboost.cv подавать кастомное разбиение по фолдам?
источник