Size: a a a

2020 February 27

AU

Aleksei Ustimenko in catboost_ru
Документация
источник

DU

Daniil Udimov in catboost_ru
Aleksei Ustimenko
Документация
Ага, а для logloss — то же самое, только вместо t_ic_i.
источник

DU

Daniil Udimov in catboost_ru
T — target (любой), а c — class ( строго бинарный)? В этом вся суть?
источник

AU

Aleksei Ustimenko in catboost_ru
Да
источник

DU

Daniil Udimov in catboost_ru
Спасибо!
источник
2020 February 28

b

bulat in catboost_ru
скажите, а в jupyter lab виджеты работают?
источник

AA

Aleksey Astafiev in catboost_ru
bulat
скажите, а в jupyter lab виджеты работают?
нет
источник

D

DU in catboost_ru
добрый день коллеги. попробовал использовать консольную версию CatBoost'а (весь пре-процессинг делал до этого). понравилось. даже на скромном железе очень бодро обучается и применяется. вопрос - является ли консольная версия самой шустрой в плане чтения данных в память и обучения (про удобство и гибкость речь не идёт)?
источник

AD

Anna Veronika Dorogush in catboost_ru
Там тот же код, что в питоне, скорость та же
источник

AK

Andrei Khropov in catboost_ru
Скорость самих итераций обучения должна быть примерно одинаковой. С чтением данных в память есть ньюансы. В python загружать данные из dsv-файла сначала в pandas.DataFrame или numpy.ndarray, а потом уже передавать его в CatBoost будет скорее всего медленнее (из-за парсинга файлов в python в 1 поток), чем загружать их через конструктор catboost.Pool с передачей ему имени файла или в CLI (в этом случае парсинг файла многопоточный). Последние 2 случая должны работать примерно с одинаковой скоростью.
источник

b

bulat in catboost_ru
Спасибо, я просто помню про это говорили какое-то время назад. Вот и спросил на всякий случай
источник

D

DU in catboost_ru
Andrei Khropov
Скорость самих итераций обучения должна быть примерно одинаковой. С чтением данных в память есть ньюансы. В python загружать данные из dsv-файла сначала в pandas.DataFrame или numpy.ndarray, а потом уже передавать его в CatBoost будет скорее всего медленнее (из-за парсинга файлов в python в 1 поток), чем загружать их через конструктор catboost.Pool с передачей ему имени файла или в CLI (в этом случае парсинг файла многопоточный). Последние 2 случая должны работать примерно с одинаковой скоростью.
спасибо, понял👍
источник

E

Edya in catboost_ru
Возможно, вопрос глупый, но все же задам его.
Можно как-либо объявить допустимый интервал для предикта у CatBoostRegressor? Например, объявить, что значение не может быть ниже 0? (в обучающей выборке все > 0) Сейчас чтобы избавиться от невозможных значений делаю постобработку
источник

ВК

Вячеслав Колосков in catboost_ru
а как деревянные модели могут выйти за пределы обучающей выборки?
источник

AU

Aleksei Ustimenko in catboost_ru
Легко
источник

K

K-S in catboost_ru
Вячеслав Колосков
а как деревянные модели могут выйти за пределы обучающей выборки?
Бустинг может, он ведь антиградиенты приближает, а там по всякому может быть
источник

AU

Aleksei Ustimenko in catboost_ru
Они же по градиенту идут
источник

K

K-S in catboost_ru
Edya
Возможно, вопрос глупый, но все же задам его.
Можно как-либо объявить допустимый интервал для предикта у CatBoostRegressor? Например, объявить, что значение не может быть ниже 0? (в обучающей выборке все > 0) Сейчас чтобы избавиться от невозможных значений делаю постобработку
Клип - вполне себе вариант
источник

AU

Aleksei Ustimenko in catboost_ru
Edya
Возможно, вопрос глупый, но все же задам его.
Можно как-либо объявить допустимый интервал для предикта у CatBoostRegressor? Например, объявить, что значение не может быть ниже 0? (в обучающей выборке все > 0) Сейчас чтобы избавиться от невозможных значений делаю постобработку
Можно использовать экспоненциальное преобразование предиктов
источник

AU

Aleksei Ustimenko in catboost_ru
Но судя по доке, нашел только LogLinQuantile, который это делает из лоссов
источник