Size: a a a

2020 April 23

CS

Chingiz Shakenov in catboost_ru
И что делать с параметром type, где по умолчанию он равен Classical?
источник

Н

Напыщенное Эго in catboost_ru
Stanislav Kirillov
Фичи-документы это столбцы-строки? - да
А остальная часть моего сообщения похожа на правду (и на то что Вы имели ввиду) или далека от неё?
Почему catboost не может обучаться на данных из БД (clickhouse, например)? Может ли catboost в качестве исходных данных принимать что-нибудь вроде виртуального массива?
Если нет, то почему? Слишком частые обращения в разные части массива?
источник

AD

Anna Veronika Dorogush in catboost_ru
Напыщенное Эго
Какие ограничения у catboost на объем исходных данных для обучения?
Я правильно понимаю что не более размера оперативки?
Т.е. для big data не получится?
В ближайшее время будет новый релиз, в котором будет поблочная квантизация. Эта функциональность позволит обучаться на огромных датасетах при наличии сервера с гпу.
источник

AD

Anna Veronika Dorogush in catboost_ru
Большой датасет кусочками загружается в память, сжимается, и уже очень сжатая версия загружается в гпу память.
источник

A

Alexey Kuznetsov in catboost_ru
Alexey Kuznetsov
Здравствуйте, посмотрите пожалуйста последнее issue , на гитхабе https://github.com/catboost/catboost/issues называется "правильность определения вероятности"
Спасибо
По вопросу расчета вероятности в листе не могли бы ответить?
источник

SK

Stanislav Kirillov in catboost_ru
Напыщенное Эго
А остальная часть моего сообщения похожа на правду (и на то что Вы имели ввиду) или далека от неё?
Почему catboost не может обучаться на данных из БД (clickhouse, например)? Может ли catboost в качестве исходных данных принимать что-нибудь вроде виртуального массива?
Если нет, то почему? Слишком частые обращения в разные части массива?
Нам нужно для каждого дерева проходить по каждой колонке признаков несколько раз
источник

SK

Stanislav Kirillov in catboost_ru
поэтому все признаки хранить в базе и доставать постоянно - очень дорого
источник

IL

Ivan Lyzhin in catboost_ru
Alexey Kuznetsov
По вопросу расчета вероятности в листе не могли бы ответить?
Ты очень много деталей не учитываешь в своих расчетах.
Во-первых, значения в листе расчитываются не как средний таргет, а как средний градиент (при leaf-estimation-method=Gradient), домноженный на learning-rate.
Во-вторых, есть ненулевой по дефолту параметр l2-leaf-reg.
В-третьих, может быть выставлен параметр boost-from-average, который пишет начальный аппрокс в отдельной поле модели (bias). Для logloss он выключен по дефолту, но полезно иметь ввиду тоже.
Скорее всего это не полный список деталей.
источник

DB

Dmitry Buslov in catboost_ru
Всем привет, можно как-то остлеживать метрики на определенной итерации? Идея - хочу каждую N-ную операцию дергать колбэк, который будет решать - стопать ли текущее выполнение. А-ля прунинг для тюнинга гиперпараметров
источник

SK

Stanislav Kirillov in catboost_ru
Ivan Lyzhin
Ты очень много деталей не учитываешь в своих расчетах.
Во-первых, значения в листе расчитываются не как средний таргет, а как средний градиент (при leaf-estimation-method=Gradient), домноженный на learning-rate.
Во-вторых, есть ненулевой по дефолту параметр l2-leaf-reg.
В-третьих, может быть выставлен параметр boost-from-average, который пишет начальный аппрокс в отдельной поле модели (bias). Для logloss он выключен по дефолту, но полезно иметь ввиду тоже.
Скорее всего это не полный список деталей.
и самое главное - у тебя стоит лернинг рейт не единица 🙂
источник

SK

Stanislav Kirillov in catboost_ru
а, Ваня об этом написал уже)
источник

A

Alexey Kuznetsov in catboost_ru
Ivan Lyzhin
Ты очень много деталей не учитываешь в своих расчетах.
Во-первых, значения в листе расчитываются не как средний таргет, а как средний градиент (при leaf-estimation-method=Gradient), домноженный на learning-rate.
Во-вторых, есть ненулевой по дефолту параметр l2-leaf-reg.
В-третьих, может быть выставлен параметр boost-from-average, который пишет начальный аппрокс в отдельной поле модели (bias). Для logloss он выключен по дефолту, но полезно иметь ввиду тоже.
Скорее всего это не полный список деталей.
Т.е. при prediction-type=Probability программа выдает не вероятность, а что-то неописуемое? Тогда переименуйте probability на unknown, чтобы не вводить пользователей в заблуждение. Если все- таки вероятность, то обьясните как в приведенном примере вероятность оказалась на 14% выше реальной. Желательно с формулами, чтобы можно было подставить все входные данные и проверить на калькуляторе.
источник

AD

Anna Veronika Dorogush in catboost_ru
Alexey Kuznetsov
Т.е. при prediction-type=Probability программа выдает не вероятность, а что-то неописуемое? Тогда переименуйте probability на unknown, чтобы не вводить пользователей в заблуждение. Если все- таки вероятность, то обьясните как в приведенном примере вероятность оказалась на 14% выше реальной. Желательно с формулами, чтобы можно было подставить все входные данные и проверить на калькуляторе.
При prediction_type=Probability программа выдает вероятность. Пожалуйста, почитайте статьи про работу градиентного бустинга, там есть вся необходимая информация.
источник

A

Alexey Kuznetsov in catboost_ru
Лист обучался на данных где 1й класс имеет 89 вхождений при 384примерах. Вероятность 1 класса равна 89/384=0.23 а не 0.37 как выдает ваша программа
источник

AD

Anna Veronika Dorogush in catboost_ru
По вашему ответу понятно, что вы не понимаете работу алгоритма, поэтому я вам и советую прочитать матчасть. Выше вам объяснили, в чем именно ошибка в Вашей логике.
источник

A

Alexey Kuznetsov in catboost_ru
Где я могу увидеть полную формулу расчета вероятности в листе. Ссылки на общие статьи не нужны, нужна формула, куда можно подставить  89, 384, learning rate  и прочее и получить 0.37
источник

SK

Stanislav Kirillov in catboost_ru
это так не работает
источник

SK

Stanislav Kirillov in catboost_ru
к сожалению, вам придется посчитать градиенты
источник

SK

Stanislav Kirillov in catboost_ru
и пройтись по формулам и алгоритмам из статьи
источник

A

Alexey Kuznetsov in catboost_ru
Давайте посчитаем пример самый простой 1дерево и 1сплит
источник