Size: a a a

2020 July 23

SK

Stanislav Kirillov in catboost_ru
Если не помещается в память - можно квантизовать сначала
источник

SK

Stanislav Kirillov in catboost_ru
чтоб помещалось в память, и потом учиться на предквантизованных данных
источник

SK

Stanislav Kirillov in catboost_ru
это еще дает возможность квантизовать данные на CPU-only машинке а учить на GPU
источник

SK

Stanislav Kirillov in catboost_ru
и не тратить время на предобработку данных
источник

L

LS in catboost_ru
Dmitri Lihhatsov
Как в Яндексе не знаю, а мы в Революте обучаем Catboost на Google Cloud, через AI Platform, Custom Code Training. 🙂

По сути просто выкачиваются training data из BigQuery и потом на n1-highmem-16, на CPU тренируется часов 6.
Интересно, какое количество данных вы имеете ввиду? Несколько млн строк?
источник

DL

Dmitri Lihhatsov in catboost_ru
LS
Интересно, какое количество данных вы имеете ввиду? Несколько млн строк?
Именно. Catboost нам помогает предотвращать карточный фрод, и другие виды мошенничества.
В обучающей выборке несколько миллионов строк.
источник

L

LS in catboost_ru
Dmitri Lihhatsov
Именно. Catboost нам помогает предотвращать карточный фрод, и другие виды мошенничества.
В обучающей выборке несколько миллионов строк.
круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?
источник

DL

Dmitri Lihhatsov in catboost_ru
LS
круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?
Undersampling хороших транзакций, тюнинг весов для индивидуальных транзакций (в зависимости от параметров транзакции - сумма денег, к примеру, - ставится weight).

Тренируем, смотрим графики precision-recall, другие метрики. В зависимости от желаемого threshold тюним веса, чтобы достичь желаемого precision-r call-fpr.

В то же вреия, уже больше года мы не трогали эти параметры. Просто каждый день тренируется и автоматически деплоится новая модель в production.
источник

NT

Nikolay Tolstov in catboost_ru
Вес классов, есть параметр например scale_pos_weights
источник

NT

Nikolay Tolstov in catboost_ru
LS
круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?
.
источник

DL

Dmitri Lihhatsov in catboost_ru
Nikolay Tolstov
Вес классов, есть параметр например scale_pos_weights
Да, это просто bulk weight назначает. Мы его тоже используем, но нам хотелось более точно вес назначать.

В конце концов, пропустить фрод на $5 и на $1,000 - это разные вещи 🙂
источник

L

LS in catboost_ru
Dmitri Lihhatsov
Undersampling хороших транзакций, тюнинг весов для индивидуальных транзакций (в зависимости от параметров транзакции - сумма денег, к примеру, - ставится weight).

Тренируем, смотрим графики precision-recall, другие метрики. В зависимости от желаемого threshold тюним веса, чтобы достичь желаемого precision-r call-fpr.

В то же вреия, уже больше года мы не трогали эти параметры. Просто каждый день тренируется и автоматически деплоится новая модель в production.
спасибо за развернутый ответ! я сейчас на самой начальной стадии, только готовлюсь запустить свою модель но понял что в первую очередь необходимо решить проблему дисбаланса)
источник

L

LS in catboost_ru
Nikolay Tolstov
Вес классов, есть параметр например scale_pos_weights
спасибо, почитаю про этот параметр
источник

DL

Dmitri Lihhatsov in catboost_ru
LS
спасибо за развернутый ответ! я сейчас на самой начальной стадии, только готовлюсь запустить свою модель но понял что в первую очередь необходимо решить проблему дисбаланса)
Не за что, счастливо! 🙂 Если интересно подробнее узнать, можно вот тут почитать, как мы со фродом боремся :)

https://link.medium.com/lpnzTBOcm8
источник

L

LS in catboost_ru
Dmitri Lihhatsov
Не за что, счастливо! 🙂 Если интересно подробнее узнать, можно вот тут почитать, как мы со фродом боремся :)

https://link.medium.com/lpnzTBOcm8
добавил в закладки! спасибо))
источник

PK

Pavel Kramov in catboost_ru
Добрый день. Не подскажете ссылку на развернутую статью или туториал по регрессии на catboost (желательно на русском и с примером).
источник

ND

Nikita Dmitriev in catboost_ru
Pavel Kramov
Добрый день. Не подскажете ссылку на развернутую статью или туториал по регрессии на catboost (желательно на русском и с примером).
Привет!
Можешь посмотреть туториал с однго из последних мероприятий (там в качестве примера задачка регрессии):
https://github.com/catboost/catboost/blob/master/catboost/tutorials/events/2020_06_04_catboost_tutorial/catboost_features.ipynb

Так же можешь посмотреть туториалы по tweedie и poisson лоссам:
https://github.com/catboost/catboost/tree/master/catboost/tutorials/regression
источник

NT

Nikolay Tolstov in catboost_ru
Dmitri Lihhatsov
Не за что, счастливо! 🙂 Если интересно подробнее узнать, можно вот тут почитать, как мы со фродом боремся :)

https://link.medium.com/lpnzTBOcm8
Спасибо за статью с удовольствием прочитаю. Знаю что Сбербанк пытался сделать такое же решение командой из 7 ДСов, не получилось у них внедрить свое решение)
источник

TP

Tymur Prorochenko in catboost_ru
Dmitri Lihhatsov
Именно. Catboost нам помогает предотвращать карточный фрод, и другие виды мошенничества.
В обучающей выборке несколько миллионов строк.
Немного оффтоп но интересно: я недавно перешёл на проект по антифроду для банка - у нас рассматривают unsupervised подходы обучения, данных много и вся работа в спарке. По итогу обучения определяются аномалии, которые потом кластеризируют и аналитики проставляют уровни риска (все с целью поиска фрода о котором заранее не известно). Так вот интересно - сталкивались ли вы с чем то похожим и есть ли интересные материалы которые можно почитать на эту тему?
источник

K

K-S in catboost_ru
Tymur Prorochenko
Немного оффтоп но интересно: я недавно перешёл на проект по антифроду для банка - у нас рассматривают unsupervised подходы обучения, данных много и вся работа в спарке. По итогу обучения определяются аномалии, которые потом кластеризируют и аналитики проставляют уровни риска (все с целью поиска фрода о котором заранее не известно). Так вот интересно - сталкивались ли вы с чем то похожим и есть ли интересные материалы которые можно почитать на эту тему?
Автоэнкодеры, знаю, используются как ансупервайз методы для детекции фрода
источник