Size: a a a

2020 April 23

SK

Stanislav Kirillov in catboost_ru
если мы говорим про метод shrink из питон-API, то все, что он делает - просто оставляет в модели некоторый поддиапазон деревьев
источник

SK

Stanislav Kirillov in catboost_ru
что такое честно?
источник

NP

Natalia Popova in catboost_ru
грубо говоря, shrink(500) равносилен тому, что мы обучаем модель с 500 итерациями?
источник

SK

Stanislav Kirillov in catboost_ru
это верно не для всех режимов обучения
источник

SK

Stanislav Kirillov in catboost_ru
если вы будете обучать, например, модель с монотонными ограничениями, то там на каждом шаге модель сжимается
источник

SK

Stanislav Kirillov in catboost_ru
плюс в зависимости от количества итераций могут выставляться разные параметры
источник

SK

Stanislav Kirillov in catboost_ru
например, лернинг рейт
источник

NP

Natalia Popova in catboost_ru
у меня классификатор на cpu с заданным lr без каких-то хитрых параметров, как тогда работает?
источник
2020 April 24

AD

Anna Veronika Dorogush in catboost_ru
Natalia Popova
у меня классификатор на cpu с заданным lr без каких-то хитрых параметров, как тогда работает?
Работает всегда одинаково - берем первые x деревьев из ансамбля. Но гарантии, что будет ровно такой же результат, как при обучении на x итераций, нет. Если есть разница, значит, есть разница в параметрах обучения. Чтобы посмотреть на значения всех параметров обучения, в том числе автоматически проставленных, можно вызвать get_all_params()
источник

NP

Natalia Popova in catboost_ru
спасибо!
источник
2020 April 26

b

bulat in catboost_ru
а можно побольше деталей про то, как катбуст считает interaction feature importances? например "regressor.get_feature_importance(from_file, prettified=True, type='Interaction')" Это как-то связано с predictive learning via rule ensembles, 2008 https://arxiv.org/pdf/0811.1679.pdf ?
источник

b

bulat in catboost_ru
я просто ручками перебираю сейчас фичи для всяких random forests and gradient boosting method в контексте survival analysis. У меня всякие коксовские модели пропорциональных рисков и я пока не пробовал катбуст с ними. Пока все делаю через sklearn.inspection.partial_dependence, например

from sklearn.inspection import partial_dependence
from sklearn.inspection import plot_partial_dependence

gbs = GradientBoostingSurvivalAnalysis(random_state=i, max_features=max_features, verbose=verbose, n_estimators=n_estimators, max_depth=max_depth)
testing =  [1, 7, 0, 8, (1,7), (1,0), (1,8), (7,0), (7,8), (0,8)] # индекси фичей

plot_partial_dependence(gbs.estimators_[0][0], X_trainRF, testing, n_jobs=3, grid_resolution=20)
источник
2020 April 27

AD

Anna Veronika Dorogush in catboost_ru
CatBoost 0.23 is out! This release contains many new features, including training on huge datasets, new ranking and regression modes, text features support for CPU training and more: https://github.com/catboost/catboost/releases/tag/v0.23
источник

YB

Yury B in catboost_ru
utils.quantize супер функция, огромное спасибо 👍
источник

SN

Sergey Novozhilov in catboost_ru
Ivan Lyzhin
Ты очень много деталей не учитываешь в своих расчетах.
Во-первых, значения в листе расчитываются не как средний таргет, а как средний градиент (при leaf-estimation-method=Gradient), домноженный на learning-rate.
Во-вторых, есть ненулевой по дефолту параметр l2-leaf-reg.
В-третьих, может быть выставлен параметр boost-from-average, который пишет начальный аппрокс в отдельной поле модели (bias). Для logloss он выключен по дефолту, но полезно иметь ввиду тоже.
Скорее всего это не полный список деталей.
Почитал эти несколько замечательных постов, возник вопрос, нет ли в планах сделать онлайн курс по Catboost? Несколько более сложный, чем для начинающих, с задачками по теории и применению  некоторых нетривиальных методов?
источник

SN

Sergey Novozhilov in catboost_ru
И, да, если все авторы статьи говорят на русском - нет ли и статьи на русском? Одно дело технические тексты читать, это просто, другое - обьяснения сложные.
источник

AD

Anna Veronika Dorogush in catboost_ru
Курс по катбусту мы не планируем, но ссылки на видеолекции по бустингу добавим на страничку educational materials. Все статьи и вообще всю информацию стараемся делать на английском, чтобы она была понятна всем пользователям в мире, на русском что-то делать не планируем.
источник

SN

Sergey Novozhilov in catboost_ru
Но оригиналы этих статей где-то есть? Может, есть возможность их где-нибудь взять? Когда-то мне преподовали Метод Опорных Векторов его авторы, через несколько лет после разработки. Сейчас я встречаю студентов, которые продираются на английском в тех методах и терминах, которые родились на русском языке. сумасшедший оверхед
источник

AD

Anna Veronika Dorogush in catboost_ru
Все новые статьи пишутся на английском и выкладываются на архив
источник

SN

Sergey Novozhilov in catboost_ru
нет ли черновиков этих статей?))
источник