Ilya Kornakov
Ну у меня простые статистики, посчитанные на истории (в стиле средний просмотренный cpm пользователя, вероятность пользователя посмотреть рекламу в данное время суток, вероятность просмотреть рекламу на данной площадке, и т.д.), и CatBoost на 1к валидации для блендинга этих статистик
Добавление новых статистик уже никакого выигрыша не давало, так что интересно, что у 1ого места
Что не сработало (довольно удивительно) - фича "какой процент времени это объявление на данном пользователе задоминировано 3мя другими". Хотя может я просто набагал
У меня примерно то, о чем тут почти все уже писали: полуаналитический подход, когда берутся юзеры и площадки из запроса, для них в часы из запроса находятся отношения цены из истории к цене запроса, далее эти числа тонко тюнятся (на это ушла громадная часть времени), суммируются и считаются фичи типа тех, что надо предсказать (доля тех, у кого суммы более 1, 2, 3 и тп). А дальше прикольно: это все кидается внезапно в SVR)) Так что получилось забавно, в первой тройке три разных инструмента.
Вопрос к автору задачи(
@system29a). Какой результат у решения, которое в продакшене используется? Есть ощущение, что можно сильно лучше сделать