круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?
Undersampling хороших транзакций, тюнинг весов для индивидуальных транзакций (в зависимости от параметров транзакции - сумма денег, к примеру, - ставится weight).
Тренируем, смотрим графики precision-recall, другие метрики. В зависимости от желаемого threshold тюним веса, чтобы достичь желаемого precision-r call-fpr.
В то же вреия, уже больше года мы не трогали эти параметры. Просто каждый день тренируется и автоматически деплоится новая модель в production.