Телеграмм чат группы catboost_ru страница 81

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

catboost_ru

553 membersпожаловаться на группу

1
«
…
‹
76
77
78
79
80
81
82
›
…
»

2019 April 03

Аa

Андрей amber4eg in catboost_ru

Anna Veronika Dorogush

нет, такого в планах нет, потому что на нашем опыте начать с большого лернинг рейта, а потом уменьшить хуже, чем сразу начать с маленького. Если 0.03 слишком долго, можно поставить столько, сколько успеется, но меньше 0.6.

Спасибо за ответ.
"хуже" проявляется в оверфите, который всё равно всё портит?

источник

18:25пожаловаться #1

Аa

Андрей amber4eg in catboost_ru

в gbm от h2o есть такая возможность, параметр называется learn_rate_annealing

спасибо, но пока не готов переходить на h2o

источник

18:26пожаловаться #2

K

K-S in catboost_ru

Кстати. Как-то не встречал сравнений XGB, LightGBM и кота с реализацией от H2O. У них ведь своя какая-то реализация бустинга имеется, я прав?

источник

18:41пожаловаться #3

VE

Vasily Ershov in catboost_ru

Кстати. Как-то не встречал сравнений XGB, LightGBM и кота с реализацией от H2O. У них ведь своя какая-то реализация бустинга имеется, я прав?

на GPU у них точно XGBoost был

источник

18:41пожаловаться #4

VE

Vasily Ershov in catboost_ru

c ребрендингом под себя

источник

18:42пожаловаться #5

K

K-S in catboost_ru

То есть с точки зрения самого алгоритма ничего своего там нет?

источник

18:43пожаловаться #6

VE

Vasily Ershov in catboost_ru

раньше у них была своя реализация CPU
которая, насколько я понимаю, классический GBDT без каких-то существенных изменений

источник

18:47пожаловаться #7

AG

Artyom Gruzdev in catboost_ru

в h2o да классика, используется тонко настраиваемый биннинг и много рандомизаторов

источник

19:15пожаловаться #8

Аa

Андрей amber4eg in catboost_ru

А есть какие-то рекомендации по ускорению за счёт уменьшения размера датасета? У меня вот 4М строк и ощущение, что гораздо меньшего количества было бы достаточно.
Могу, конечно, просто проверить, сделав случайную подвыборку из трейна, но ведь пахнет типовой задачкой. Наверняка есть уже какие-то наработки по этому вопросу

источник

19:18пожаловаться #9

VE

Vasily Ershov in catboost_ru

—subsample fraction для ускорение подбора

источник

19:18пожаловаться #10

VE

Vasily Ershov in catboost_ru

на каждой итерации будет использовать только часть сэмплов

источник

19:18пожаловаться #11

VE

Vasily Ershov in catboost_ru

в катбусте можно делать достаточно маленький fraction — деревья подбираются под часть сэмплов, а оценка листьев потом уже по всем будет

источник

19:20пожаловаться #12

VE

Vasily Ershov in catboost_ru

еще просто по усорению. — если обучать классификацию и фичей немного, то может быть выгодно поменять leaf_estimation_iterations с дефолтных 10 до 2-3, скорость обучения может сильно вырасти

источник

19:21пожаловаться #13

MK

Maxim Khrisanfov in catboost_ru

фичей немного - это сколько примерно?

источник

19:22пожаловаться #14

AC

Alexander C in catboost_ru

в h2o да классика, используется тонко настраиваемый биннинг и много рандомизаторов

Какой биннинг?

источник

19:24пожаловаться #15

AG

Artyom Gruzdev in catboost_ru

аа любимая тема у вас)

источник

19:26пожаловаться #16

VE

Vasily Ershov in catboost_ru

в зависимости от того, на чем обучать и какие фиче
если все фичи флотовые, то одна итерация оценки листьев ≈ число сэмплов операций
подбор дерева ≈ глубина * число сэмплов * число фичей

на CPU уже при ≈30 фичах вроде не должно быть сильно заметно
на GPU до 100 фичей оценка листьев может тратить существенную часть времени

источник

19:26пожаловаться #17

Аa

Андрей amber4eg in catboost_ru

Штук 20 фичей, float. Пара категориальных.
Отдельно есть подозрение, что надо выкинуть половину - у многих feature importance очень маленький

источник

19:31пожаловаться #18

AG

Artyom Gruzdev in catboost_ru

Alexander C

Какой биннинг?

кинул в личку

источник

19:39пожаловаться #19

AC

Alexander C in catboost_ru

кинул в личку

Спасибо

источник

19:42пожаловаться #20

1
«
…
‹
76
77
78
79
80
81
82
›
…
»