Size: a a a

2019 April 04

AD

Anna Veronika Dorogush in catboost_ru
по умолчанию на самом деле три - с разными праерами
источник

G

Grigory in catboost_ru
Иван Брагин
Простой пример это timestamp, из него можно получить день недели и час дня, когда фичи разделяются на сплиты маловероятно что получится выделить воскресение в отдельный сплит. Если и получится случайно то какие то конкретные воскресения. А что если воскресение вечер окажется важной фичей.

Другой пример из sna конкурса. Есть количество просмотров объекта и количество лайков объекта, фажным признаком будет likesCount/showsCount, то есть для дерева не понятно 10 лайков это хорошо или плохо, оно должно создать сразу ещё один лист который определит а сколько просмотров (точнее больше чем сколько).

Впринципе то что я описал в идеальном случае должно разруливатсья бустингом, но нужно очень много итераций и удача.
Получается что мы можем упростить задачу для бустинга понимая что значит фича и создавая новую на основе неё, следуя этому выводу можно попробовать рандомно делить умножать, вычитать попарно фичи и смотреть не получится ли что то. Важные фичи оставлять, а остальные убирать. Думаю если такое когда нибудь эффективно реализуют в какой то либе, то тогда у разработчика больше не будет нужды в генерации подобных вещей.

Ещё пример это категориальные фичи, например нормировать какую то фичу в рамках категории (вычесть среднее по юзеру из каждой строки этого юзера). catboost не смотрит на юзера как на ohe для этого юзера появляется float значение которое в каждой строке разное и ничего подобного (нормализацию) он сам сделать не сможет.
Иван, а может напишешь статью на хабр по тюнингу катбуста на примере SNA Hackathon 2019? )
источник

ИБ

Иван Брагин in catboost_ru
У меня там даже аккаунта нет
источник

ИБ

Иван Брагин in catboost_ru
написать впринципе могу за выходные
источник

ИБ

Иван Брагин in catboost_ru
там invite нужен что бы публиковаться?
источник

A

Aleksei in catboost_ru
нет
источник

A

Aleksei in catboost_ru
там могут за публикацию инвайт дать
источник

ИБ

Иван Брагин in catboost_ru
хмм
источник

A

Aleksei in catboost_ru
полноправные участники или приглашены другими, или написали норм статью)
источник

A

Aleksei in catboost_ru
ну и чит через компании, если есть корпаративный блог
источник

ИБ

Иван Брагин in catboost_ru
А, понятно, постараюсь подготовить за выходные, пока сам всё не забыл
источник

G

Grigory in catboost_ru
@annaveronika , может, вы Ивану инвайт на хабр сделаете?
источник

MK

Maxim Khrisanfov in catboost_ru
разве нужен инвайт чтобы написать?
источник

ИБ

Иван Брагин in catboost_ru
Зарегался, для публикации инвайт не нужен, к понедельнику думаю будет готово
источник

AD

Anna Veronika Dorogush in catboost_ru
Grigory
@annaveronika , может, вы Ивану инвайт на хабр сделаете?
А давайте англоязычный пост на towardsdatascience лучше, чтобы все могли читать
источник

A

Aleksei in catboost_ru
Anna Veronika Dorogush
А давайте англоязычный пост на towardsdatascience лучше, чтобы все могли читать
хабр уже давно англоязычный)
источник

AD

Anna Veronika Dorogush in catboost_ru
на хабр ходят в основном русскоговорящие все-таки
источник

A

Alexander Moiseev in catboost_ru
Anna Veronika Dorogush
А давайте англоязычный пост на towardsdatascience лучше, чтобы все могли читать
Отличная идея )
источник

А

Андрей in catboost_ru
Иван Брагин
Зарегался, для публикации инвайт не нужен, к понедельнику думаю будет готово
классно
источник

ИБ

Иван Брагин in catboost_ru
Англоязычный это не за выходные конечно, хотя это будет интересно. Завтра определюсь
источник