Телеграмм чат группы catboost

добрый день коллеги. попробовал использовать консольную версию CatBoost'а (весь пре-процессинг делал до этого). понравилось. даже на скромном железе очень бодро обучается и применяется. вопрос - является ли консольная версия самой шустрой в плане чтения данных в память и обучения (про удобство и гибкость речь не идёт)?

источник

15:34пожаловаться #8

AD

Anna Veronika Dorogush in catboost_ru

Там тот же код, что в питоне, скорость та же

источник

15:39пожаловаться #9

AK

Andrei Khropov in catboost_ru

Скорость самих итераций обучения должна быть примерно одинаковой. С чтением данных в память есть ньюансы. В python загружать данные из dsv-файла сначала в pandas.DataFrame или numpy.ndarray, а потом уже передавать его в CatBoost будет скорее всего медленнее (из-за парсинга файлов в python в 1 поток), чем загружать их через конструктор catboost.Pool с передачей ему имени файла или в CLI (в этом случае парсинг файла многопоточный). Последние 2 случая должны работать примерно с одинаковой скоростью.

источник

16:33пожаловаться #10

b

bulat in catboost_ru

Aleksey Astafiev

нет

Спасибо, я просто помню про это говорили какое-то время назад. Вот и спросил на всякий случай

источник

16:47пожаловаться #11

D

DU in catboost_ru

Andrei Khropov

Скорость самих итераций обучения должна быть примерно одинаковой. С чтением данных в память есть ньюансы. В python загружать данные из dsv-файла сначала в pandas.DataFrame или numpy.ndarray, а потом уже передавать его в CatBoost будет скорее всего медленнее (из-за парсинга файлов в python в 1 поток), чем загружать их через конструктор catboost.Pool с передачей ему имени файла или в CLI (в этом случае парсинг файла многопоточный). Последние 2 случая должны работать примерно с одинаковой скоростью.

спасибо, понял👍

источник

17:04пожаловаться #12

E

Edya in catboost_ru

Возможно, вопрос глупый, но все же задам его.
Можно как-либо объявить допустимый интервал для предикта у CatBoostRegressor? Например, объявить, что значение не может быть ниже 0? (в обучающей выборке все > 0) Сейчас чтобы избавиться от невозможных значений делаю постобработку

источник

18:31пожаловаться #13

ВК

Вячеслав Колосков in catboost_ru

а как деревянные модели могут выйти за пределы обучающей выборки?

источник

18:46пожаловаться #14

AU

Aleksei Ustimenko in catboost_ru

Легко

источник

18:48пожаловаться #15

K

K-S in catboost_ru

Вячеслав Колосков

а как деревянные модели могут выйти за пределы обучающей выборки?

Бустинг может, он ведь антиградиенты приближает, а там по всякому может быть

источник

18:48пожаловаться #16

AU

Aleksei Ustimenko in catboost_ru

Они же по градиенту идут

источник

18:48пожаловаться #17

K

K-S in catboost_ru

Edya

Возможно, вопрос глупый, но все же задам его.
Можно как-либо объявить допустимый интервал для предикта у CatBoostRegressor? Например, объявить, что значение не может быть ниже 0? (в обучающей выборке все > 0) Сейчас чтобы избавиться от невозможных значений делаю постобработку

Клип - вполне себе вариант

источник

18:49пожаловаться #18

AU

Aleksei Ustimenko in catboost_ru

Edya

Возможно, вопрос глупый, но все же задам его.
Можно как-либо объявить допустимый интервал для предикта у CatBoostRegressor? Например, объявить, что значение не может быть ниже 0? (в обучающей выборке все > 0) Сейчас чтобы избавиться от невозможных значений делаю постобработку

Можно использовать экспоненциальное преобразование предиктов

источник

18:50пожаловаться #19

AU

Aleksei Ustimenko in catboost_ru

Но судя по доке, нашел только LogLinQuantile, который это делает из лоссов

источник

18:54пожаловаться #20