Size: a a a

2018 December 14

AG

Artyom Gruzdev in catboost_ru
Anna Veronika Dorogush
для создания бинов не используются абсолютные значения фичи, только порядок
я не конкретно про catboost говорил
источник

AG

Artyom Gruzdev in catboost_ru
в h2o нормализация дает улучшение или выбор QuantileGlobal
источник

AG

Artyom Gruzdev in catboost_ru
но еще лучше брать RoundRobin
источник

AD

Anna Veronika Dorogush in catboost_ru
в катбусте на самом деле есть Uniform еще, там как раз равномерная сетка по значениям делается.
источник

AG

Artyom Gruzdev in catboost_ru
кстати, есть такая возможность в катбусте?
источник

AG

Artyom Gruzdev in catboost_ru
хотя нет циклический перебор не поможет в катбусте
источник

ND

Nikita Dmitriev in catboost_ru
Oleh Yashchuk
@nikitxskv т.е. бинаризация используется catboost-ом по умолчанию?
да, бинаризация всегда делается
источник

OY

Oleh Yashchuk in catboost_ru
Подскажите, пожалуйста, ещё один момент. Вопрос конечно, довольно общего характера. Стоит ли исключать из обучающей выборки многомерные выбросы, найденные, к примеру при помощи miss forest? Вообще, и для катбуста в частности?
источник

OY

Oleh Yashchuk in catboost_ru
Ладно, снимаю вопрос. В такой формулировке он чуть ли не риторический:) Буду думать исходя из структуры имеющихся данных.
источник

AD

Anna Veronika Dorogush in catboost_ru
Мы подготовили список простых задачек в разработке катбуста
https://github.com/catboost/catboost/blob/master/open_problems/open_problems.md

Каждая из этих задач - это отличный способ начать контрибьютить в опенсорс. Они все небольшие и не требуют знания всей кодовой базы. При этом все полезные!

Приглашаю желающих поучаствовать! Тем, кто соберется, предлагаю делать issue на гитхабе с соответствующей задачей, мы в комментариях поможем разобраться в коде, в том, как его собрать и как вкоммитить.
источник

A

Andrey in catboost_ru
2 задача - нужно дергать с++ через rcpp, или питон через reticulate?
источник

ЕП

Евгений Петров in catboost_ru
скорее всего, c++ через rcpp.
источник

AC

Alexander C in catboost_ru
А есть данные типа берём МНОГО датасетов из кагла/других источников, применяем катбуст, записываем результат катбуста и чемпионо, смотрим какая разница... Ну типа такого... Пока не видел выиграша катбуста на своих задачах... В презентациях пять примеров упомянуто (если верно помню) мало както...
источник

Аa

Андрей amber4eg in catboost_ru
Alexander C
А есть данные типа берём МНОГО датасетов из кагла/других источников, применяем катбуст, записываем результат катбуста и чемпионо, смотрим какая разница... Ну типа такого... Пока не видел выиграша катбуста на своих задачах... В презентациях пять примеров упомянуто (если верно помню) мало както...
я делал себе футболку с напечатанным там крупным шрифтом кодом, который десятка в два строк забрасывает в топ30% титаника.
Вот за простоту использования и стабильность в нагрузке catboost я и люблю. Тот же lightgbm обучается быстрее и точнее, но он потом себя ведёт, а котик пашет.
источник

DK

Dmitriy Kruchinin in catboost_ru
Alexander C
А есть данные типа берём МНОГО датасетов из кагла/других источников, применяем катбуст, записываем результат катбуста и чемпионо, смотрим какая разница... Ну типа такого... Пока не видел выиграша катбуста на своих задачах... В презентациях пять примеров упомянуто (если верно помню) мало както...
Информацию по бенчмаркам можно найти здесь: https://github.com/catboost/catboost/tree/master/catboost/benchmarks
источник

AD

Anna Veronika Dorogush in catboost_ru
Мы вообще планируем расширить, эти делали еще перед опенсорсом
источник

AD

Anna Veronika Dorogush in catboost_ru
Но руки пока не дошли
источник

AD

Anna Veronika Dorogush in catboost_ru
Если есть датасет, где мы не выигрываем, скинь нам, пожалуйста, посмотреть.
источник

AD

Anna Veronika Dorogush in catboost_ru
Будет у нас возможность улучшиться
источник

AC

Alexander C in catboost_ru
Anna Veronika Dorogush
Будет у нас возможность улучшиться
Сейчас вот мл кап идет в соседнем чате гипергипер активно обсуждают, говорят что катбуст, что логрег, один черт, у менябыло также, логрег только малость лучше
источник