Size: a a a

2019 April 03

Аa

Андрей amber4eg in catboost_ru
Anna Veronika Dorogush
нет, такого в планах нет, потому что на нашем опыте начать с большого лернинг рейта, а потом уменьшить хуже, чем сразу начать с маленького. Если 0.03 слишком долго, можно поставить столько, сколько успеется, но меньше 0.6.
Спасибо за ответ.
"хуже" проявляется в оверфите, который всё равно всё портит?
источник

Аa

Андрей amber4eg in catboost_ru
Artyom Gruzdev
в gbm от h2o есть такая возможность, параметр называется learn_rate_annealing
спасибо, но пока не готов переходить на h2o
источник

K

K-S in catboost_ru
Кстати. Как-то не встречал сравнений XGB, LightGBM и кота с реализацией от H2O. У них ведь своя какая-то реализация бустинга имеется, я прав?
источник

VE

Vasily Ershov in catboost_ru
K-S
Кстати. Как-то не встречал сравнений XGB, LightGBM и кота с реализацией от H2O. У них ведь своя какая-то реализация бустинга имеется, я прав?
на GPU у них точно XGBoost был
источник

VE

Vasily Ershov in catboost_ru
c ребрендингом под себя
источник

K

K-S in catboost_ru
То есть с точки зрения самого алгоритма ничего своего там нет?
источник

VE

Vasily Ershov in catboost_ru
раньше у них была своя реализация CPU
которая, насколько я понимаю,  классический GBDT без каких-то существенных изменений
источник

AG

Artyom Gruzdev in catboost_ru
в h2o да классика, используется тонко настраиваемый биннинг и много рандомизаторов
источник

Аa

Андрей amber4eg in catboost_ru
А есть какие-то рекомендации по ускорению за счёт уменьшения размера датасета? У меня вот 4М строк и ощущение, что гораздо меньшего количества было бы достаточно.
Могу, конечно, просто проверить, сделав случайную подвыборку из трейна, но ведь пахнет типовой задачкой. Наверняка есть уже какие-то наработки по этому вопросу
источник

VE

Vasily Ershov in catboost_ru
—subsample fraction для ускорение подбора
источник

VE

Vasily Ershov in catboost_ru
на каждой итерации будет использовать только часть сэмплов
источник

VE

Vasily Ershov in catboost_ru
в катбусте можно делать достаточно маленький fraction — деревья подбираются под часть сэмплов, а оценка листьев потом уже по всем будет
источник

VE

Vasily Ershov in catboost_ru
еще просто по усорению. — если обучать классификацию и фичей немного, то может быть выгодно поменять leaf_estimation_iterations с дефолтных 10 до 2-3, скорость обучения может сильно вырасти
источник

MK

Maxim Khrisanfov in catboost_ru
фичей немного - это сколько примерно?
источник

AC

Alexander C in catboost_ru
Artyom Gruzdev
в h2o да классика, используется тонко настраиваемый биннинг и много рандомизаторов
Какой биннинг?
источник

AG

Artyom Gruzdev in catboost_ru
аа любимая тема у вас)
источник

VE

Vasily Ershov in catboost_ru
в зависимости от того, на чем обучать и какие фиче
если все фичи флотовые, то одна итерация оценки листьев ≈ число сэмплов операций
подбор дерева ≈ глубина * число сэмплов * число фичей

на CPU уже при ≈30 фичах вроде не должно быть сильно заметно
на GPU до 100 фичей оценка листьев может тратить существенную часть времени
источник

Аa

Андрей amber4eg in catboost_ru
Штук 20 фичей, float. Пара категориальных.
Отдельно есть подозрение, что надо выкинуть половину - у многих feature importance очень маленький
источник

AG

Artyom Gruzdev in catboost_ru
Alexander C
Какой биннинг?
кинул в личку
источник

AC

Alexander C in catboost_ru
Artyom Gruzdev
кинул в личку
Спасибо
источник