Size: a a a

2019 July 16

SK

Stanislav Kirillov in catboost_ru
ты кстати можешь ничего не переобучая пофиксить
источник

SK

Stanislav Kirillov in catboost_ru
спецом сделали метод, дропающий неиспользуемые фичи
источник

ИБ

Иван Брагин in catboost_ru
то есть на питоне загрузить, почистить и пересохранить?
источник

SK

Stanislav Kirillov in catboost_ru
ага
источник

SK

Stanislav Kirillov in catboost_ru
cb.drop_unused_features()
источник

ИБ

Иван Брагин in catboost_ru
ну у меня переобучить не проблема, а там в комментарии можно дописать
источник

SK

Stanislav Kirillov in catboost_ru
вообще это бага
источник

SK

Stanislav Kirillov in catboost_ru
нужно ее пофиксать
источник

SK

Stanislav Kirillov in catboost_ru
оч плохая бага
источник

Y

Young Freud 💎 in catboost_ru
Anna Veronika Dorogush
нужно сохранить в tsv и добавить column descriptions file, в котором написать, в какой колонке целевая переменная (Label)
tsv - это же csv с табуляцией вместо запятых?
источник

Y

Young Freud 💎 in catboost_ru
Если я автозаменой поменяю запятые на табуляцию, catboost его обработает?)
источник

AD

Anna Veronika Dorogush in catboost_ru
Да можно и с запятыми, но тогда надо delimiter поставить в параметрах
источник
2019 July 17

OS

Oleg Shapovalov in catboost_ru
Добрый день, у меня вопрос по max_ctr_complexity. Ситуация такая: датасет на 30+ млн строк, 25 фич, есть категориальная фича с высокой кардинальностью + она типа uint64,
поэтому я конвертирую ее в строку. Если я обучаю с max_ctr_complexity=1, то получаю 500Мб модель. Попробовал убрать max_ctr_complexity, тогда на валидации получаю неплохое улучшение, но модель растет просто нереально (когда она записала на диск 25Гб я прибил процесс).

Стоит ли пытаться самостоятельно вписывать фичу uint64 в int32 или предпринимать какие-то другие действия (хочется использовать max_ctr_complexity>1)?

Может есть возможность указать, что именно для этой фичи я хочу ctr_complexity=1?
источник

AD

Anna Veronika Dorogush in catboost_ru
https://catboost.ai/docs/concepts/faq.html#reduce-the-size-of-the-final-model - тут есть несколько советов
источник

OS

Oleg Shapovalov in catboost_ru
спасибо, буду пробовать
источник
2019 July 18

IP

Igor Petrov in catboost_ru
@annaveronika после трех дней обучения такая ситуация как быть
источник

IP

Igor Petrov in catboost_ru
Еще бы узнать как правильно работать с
panda datetime в catboost
источник

AD

Anna Veronika Dorogush in catboost_ru
Igor Petrov
@annaveronika после трех дней обучения такая ситуация как быть
Не переобучается алгоритм, так бывает, можно радоваться :) Дальше можно пытаться добавлять новые фичи, можно несимметричные деревья обучить или просто симметричные более глубокие.
источник

AD

Anna Veronika Dorogush in catboost_ru
Igor Petrov
Еще бы узнать как правильно работать с
panda datetime в catboost
datetime в катбусте не поддерживается
источник

IP

Igor Petrov in catboost_ru
Anna Veronika Dorogush
Не переобучается алгоритм, так бывает, можно радоваться :) Дальше можно пытаться добавлять новые фичи, можно несимметричные деревья обучить или просто симметричные более глубокие.
добавлено всё что можно уже) а дальше обучение медленно идет. За первый день 120к итерация, за два следующих ~60. Данные не кешируются наверное
источник