Телеграмм чат группы catboost

Как в Яндексе не знаю, а мы в Революте обучаем Catboost на Google Cloud, через AI Platform, Custom Code Training. 🙂

По сути просто выкачиваются training data из BigQuery и потом на n1-highmem-16, на CPU тренируется часов 6.

Интересно, какое количество данных вы имеете ввиду? Несколько млн строк?

источник

17:10пожаловаться #5

DL

Dmitri Lihhatsov in catboost_ru

LS

Интересно, какое количество данных вы имеете ввиду? Несколько млн строк?

Именно. Catboost нам помогает предотвращать карточный фрод, и другие виды мошенничества.
В обучающей выборке несколько миллионов строк.

источник

17:13пожаловаться #6

L

LS in catboost_ru

Dmitri Lihhatsov

Именно. Catboost нам помогает предотвращать карточный фрод, и другие виды мошенничества.
В обучающей выборке несколько миллионов строк.

круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?

источник

17:21пожаловаться #7

DL

Dmitri Lihhatsov in catboost_ru

LS

круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?

Undersampling хороших транзакций, тюнинг весов для индивидуальных транзакций (в зависимости от параметров транзакции - сумма денег, к примеру, - ставится weight).

Тренируем, смотрим графики precision-recall, другие метрики. В зависимости от желаемого threshold тюним веса, чтобы достичь желаемого precision-r call-fpr.

В то же вреия, уже больше года мы не трогали эти параметры. Просто каждый день тренируется и автоматически деплоится новая модель в production.

источник

17:26пожаловаться #8

NT

Nikolay Tolstov in catboost_ru

Вес классов, есть параметр например scale_pos_weights

источник

17:27пожаловаться #9

NT

Nikolay Tolstov in catboost_ru

LS

круто, как раз сейчас читаю про light, xg и catboost, выбираю для себя подходящий алгоритм. Подскажите пожалуйста как вы решаете проблему дисбаланса данных? каким путем?

.

источник

17:27пожаловаться #10

DL

Dmitri Lihhatsov in catboost_ru

Nikolay Tolstov

Вес классов, есть параметр например scale_pos_weights

Да, это просто bulk weight назначает. Мы его тоже используем, но нам хотелось более точно вес назначать.

В конце концов, пропустить фрод на $5 и на $1,000 - это разные вещи 🙂

источник

17:28пожаловаться #11

L

LS in catboost_ru

Dmitri Lihhatsov

Undersampling хороших транзакций, тюнинг весов для индивидуальных транзакций (в зависимости от параметров транзакции - сумма денег, к примеру, - ставится weight).

Тренируем, смотрим графики precision-recall, другие метрики. В зависимости от желаемого threshold тюним веса, чтобы достичь желаемого precision-r call-fpr.

В то же вреия, уже больше года мы не трогали эти параметры. Просто каждый день тренируется и автоматически деплоится новая модель в production.

спасибо за развернутый ответ! я сейчас на самой начальной стадии, только готовлюсь запустить свою модель но понял что в первую очередь необходимо решить проблему дисбаланса)

источник

17:30пожаловаться #12

L

LS in catboost_ru

Nikolay Tolstov

Вес классов, есть параметр например scale_pos_weights

спасибо, почитаю про этот параметр

источник

17:30пожаловаться #13

DL

Dmitri Lihhatsov in catboost_ru

LS

спасибо за развернутый ответ! я сейчас на самой начальной стадии, только готовлюсь запустить свою модель но понял что в первую очередь необходимо решить проблему дисбаланса)

Не за что, счастливо! 🙂 Если интересно подробнее узнать, можно вот тут почитать, как мы со фродом боремся :)

https://link.medium.com/lpnzTBOcm8

Medium

Building a state-of-the-art card fraud detection system in 9 months

Go deeper into our methodology for solving a business problem with machine learning

источник

17:32пожаловаться #14

L

LS in catboost_ru

Dmitri Lihhatsov

Не за что, счастливо! 🙂 Если интересно подробнее узнать, можно вот тут почитать, как мы со фродом боремся :)

https://link.medium.com/lpnzTBOcm8

Medium

Building a state-of-the-art card fraud detection system in 9 months

Go deeper into our methodology for solving a business problem with machine learning

добавил в закладки! спасибо))

источник

17:33пожаловаться #15

PK

Pavel Kramov in catboost_ru

Добрый день. Не подскажете ссылку на развернутую статью или туториал по регрессии на catboost (желательно на русском и с примером).

источник

17:41пожаловаться #16

ND

Nikita Dmitriev in catboost_ru

Pavel Kramov

Добрый день. Не подскажете ссылку на развернутую статью или туториал по регрессии на catboost (желательно на русском и с примером).

Привет!
Можешь посмотреть туториал с однго из последних мероприятий (там в качестве примера задачка регрессии):
https://github.com/catboost/catboost/blob/master/catboost/tutorials/events/2020_06_04_catboost_tutorial/catboost_features.ipynb

Так же можешь посмотреть туториалы по tweedie и poisson лоссам:
https://github.com/catboost/catboost/tree/master/catboost/tutorials/regression

источник

17:43пожаловаться #17

NT

Nikolay Tolstov in catboost_ru

Dmitri Lihhatsov

Не за что, счастливо! 🙂 Если интересно подробнее узнать, можно вот тут почитать, как мы со фродом боремся :)

https://link.medium.com/lpnzTBOcm8

Medium

Building a state-of-the-art card fraud detection system in 9 months

Go deeper into our methodology for solving a business problem with machine learning

Спасибо за статью с удовольствием прочитаю. Знаю что Сбербанк пытался сделать такое же решение командой из 7 ДСов, не получилось у них внедрить свое решение)

источник

18:16пожаловаться #18

TP

Tymur Prorochenko in catboost_ru

Dmitri Lihhatsov

Именно. Catboost нам помогает предотвращать карточный фрод, и другие виды мошенничества.
В обучающей выборке несколько миллионов строк.

Немного оффтоп но интересно: я недавно перешёл на проект по антифроду для банка - у нас рассматривают unsupervised подходы обучения, данных много и вся работа в спарке. По итогу обучения определяются аномалии, которые потом кластеризируют и аналитики проставляют уровни риска (все с целью поиска фрода о котором заранее не известно). Так вот интересно - сталкивались ли вы с чем то похожим и есть ли интересные материалы которые можно почитать на эту тему?

источник

19:29пожаловаться #19

K

K-S in catboost_ru

Tymur Prorochenko

Немного оффтоп но интересно: я недавно перешёл на проект по антифроду для банка - у нас рассматривают unsupervised подходы обучения, данных много и вся работа в спарке. По итогу обучения определяются аномалии, которые потом кластеризируют и аналитики проставляют уровни риска (все с целью поиска фрода о котором заранее не известно). Так вот интересно - сталкивались ли вы с чем то похожим и есть ли интересные материалы которые можно почитать на эту тему?

Автоэнкодеры, знаю, используются как ансупервайз методы для детекции фрода

источник

19:41пожаловаться #20