Size: a a a

2018 December 25

DB

Dmitry Buslov in catboost_ru
@Noxoomo , а есть в планах реализация constraint-ов? (не нашел их в доке)
источник

AD

Anna Veronika Dorogush in catboost_ru
есть issue про это
источник

AD

Anna Veronika Dorogush in catboost_ru
Немного разобрались с набросом про скорость на гпу+датасет 6к документов. Оказалось, запускали библиотеки с разным числом итераций. Итоговая разница в зависимости от глубины - в полтора два раза катбуст медленнее.
На датасетах побольше уже катбуст быстрее, чем xgboost (мы проверили на 12к объектах).
Мы обязательно добавим в гпу бенчмарки маленький датасет, спасибо!
источник

Аa

Андрей amber4eg in catboost_ru
А у вас в бенмарках есть prediction time на больших и малых датасетах с разным количеством итераций обучения?
По моей практикой на датасете 500к*25 котик учит одно и то же число итераций (15-30к) в разы дольше, чем lightgbm, с дефолтным LR добивается меньшей точности, но время прогноза на порядок/порядки меньше, чем у lgbm
источник

AD

Anna Veronika Dorogush in catboost_ru
Про скорость:
цпу или гпу? какой режим? цпу+классификация может быть дольше, чем lightGBM, если фичей мало. 25 - достаточно мало. Если было бы порядка сотни фичей, то катбуст уже был бы быстрее. Если хочется ускорить, то можно поставить leaf_estimation_iterations=1.

Еще цпу может быть дольше, если данные разреженные, мы сейчас над этим работаем.

Про качество: надо смотреть на кривую обучения и следить, чтобы модель дообучилась. Я сходу не знаю, почему там разница в качестве, может, недообученная модель. Но если все нормально и модель дообученная, то если есть кейс, где катбуст хуже по качеству, то скидывай его нам.

Про применение: да, есть бенчмарки. На гитхабе есть папка с бенчмарками, там в том числе применялка.
источник

AD

Anna Veronika Dorogush in catboost_ru
https://tech.yandex.com/catboost/doc/dg/concepts/speed-up-training-docpage/#leaf-estimation-iteration - вот инструкция, что делать, если медленное обучение.
источник

AD

Anna Veronika Dorogush in catboost_ru
источник

AD

Anna Veronika Dorogush in catboost_ru
Мы кстати применение на питоне сейчас сильно ускорили, в 0.12 будет на pypi.
источник

Аa

Андрей amber4eg in catboost_ru
Здорово :)
Ну скорость обучения мне не критична в данной задаче, могу и подождать. Малое время прогноза радует.
источник

SK

Stanislav Kirillov in catboost_ru
Андрей amber4eg
Здорово :)
Ну скорость обучения мне не критична в данной задаче, могу и подождать. Малое время прогноза радует.
А применяетесь из питона?
источник

Аa

Андрей amber4eg in catboost_ru
Stanislav Kirillov
А применяетесь из питона?
да
источник

Аa

Андрей amber4eg in catboost_ru
Хотели бы из PHP, но приходится из питона )
источник

SK

Stanislav Kirillov in catboost_ru
Тогда обязательно попробуйте 0.12.0 как только мы его докатим :) Там будет еще дополнительное ускорение применения за счет  zero-copy при применении на Numpy & pandas датафреймах
источник

Аa

Андрей amber4eg in catboost_ru
А когда планируете докатить?
источник

AD

Anna Veronika Dorogush in catboost_ru
в самое ближайшее время
источник

Аa

Андрей amber4eg in catboost_ru
😁😁 Это "к вечеру" или " в начале января"? :)))) Вы очень оперативно обновляетесь, но вот такая формулировка - ну очень расплывчатая )
источник

Аa

Андрей amber4eg in catboost_ru
оба варианта хороши, просто любопытно )
источник

SK

Stanislav Kirillov in catboost_ru
правильный ответ - в прошлый четверг :)
источник

Аa

Андрей amber4eg in catboost_ru
Stanislav Kirillov
правильный ответ - в прошлый четверг :)
😂😂👍🏻
источник
2018 December 26

AD

Anna Veronika Dorogush in catboost_ru
Новый релиз 0.12.0 уже на pypi!
источник