Size: a a a

2020 July 25

AN

Alex Nemoy in catboost_ru
спасибо за ответы
источник

AN

Alex Nemoy in catboost_ru
Подскажите пожалуйста
Если при решении классификации есть диаметральные примеры
Где объект  описанный фичами имеет различные метки
Например векторA [1,2,3]>1 и векторB [1,2,3]>0 и векторов А 50 шт а векторов Б 30шт
Catboost сможет разделить эти события самостоятельно корректно или надо на этапе предобработки это предусмотреть и обработать ?
спасибо
источник
2020 July 26

K

K-S in catboost_ru
А как вы хотите, чтоб алгоритм их разделил, если объекты идентичны?
источник

AN

Alex Nemoy in catboost_ru
по сумме больших наблюдений. например если дождь шел после пасмурно 50 раз а солнечно после пасмурно было 30 раз то пасмурно вероятнее отнести к плохой погоде а не к хорошей. вопрос в том убирать ли взаимоисключающие наблюдения ?
источник

DL

Dmitri Lihhatsov in catboost_ru
Tymur Prorochenko
Немного оффтоп но интересно: я недавно перешёл на проект по антифроду для банка - у нас рассматривают unsupervised подходы обучения, данных много и вся работа в спарке. По итогу обучения определяются аномалии, которые потом кластеризируют и аналитики проставляют уровни риска (все с целью поиска фрода о котором заранее не известно). Так вот интересно - сталкивались ли вы с чем то похожим и есть ли интересные материалы которые можно почитать на эту тему?
Тимур, в банках много разного фрода. Карточный фрод, о котором я писал - лишь малая его часть. Существенно большую - в денежных единицах - занимает то, что называется Authorised Push Payments (APP), money muling, Anti-Money Laundering (AML) и Terrorism Financing. Не говоря уже о махинациях на фондовом рынке.

Unsupervised ML, с моей точки зрения, успешнее применяются на AML и фроде на фондовых рынках, т.к labelled data гораздо сложнее получить и гораздо интереснее применять кластеризацию и даже графовые алгоритмы, чтобы отыскивать аномалии.

У нас тоже ведутся работы в этой области, но публикаций пока нет.

Кстати вот ещё свежая статья от умных ребят из Feedzai - они RNN натренировали предотвращать CNP fraud (карточный фрод). Пишут, результаты чуть лучше, чем с деревьями и лесами. https://arxiv.org/pdf/2002.05988.pdf

Успехов вам!
источник

K

K-S in catboost_ru
Alex Nemoy
по сумме больших наблюдений. например если дождь шел после пасмурно 50 раз а солнечно после пасмурно было 30 раз то пасмурно вероятнее отнести к плохой погоде а не к хорошей. вопрос в том убирать ли взаимоисключающие наблюдения ?
Ну так бустинг так и отработает. Если среди 10 сэмплов с идентичным признаковым описанием шесть имело класс 1, а четыре — класс 0, то для нового объекта с таким же признаковым описанием он 0.6 вероятность будет давать
источник

AN

Alex Nemoy in catboost_ru
Спасибо
источник
2020 July 27

АР

Андрей Рыжик... in catboost_ru
Всем привет! Не знаете есть ли какое-нибудь руководство по кэтбусту прям для совсем начинающих? Для тех кто не очень знает питон и, тем более, никогда не работал с машинным обучением. Спасибо!
источник

L

LS in catboost_ru
Андрей Рыжик
Всем привет! Не знаете есть ли какое-нибудь руководство по кэтбусту прям для совсем начинающих? Для тех кто не очень знает питон и, тем более, никогда не работал с машинным обучением. Спасибо!
Посмотри туториал

https://youtu.be/ZaP5qFSIcIw

Там хорошо все объясняется
источник

АР

Андрей Рыжик... in catboost_ru
Спасибо!
источник
2020 July 28

AN

Alex Nemoy in catboost_ru
Привет
использую Pool для загрузки данных
применяю файл с column_description
0 Auxiliary
но после тренировки вызываю
print(model.get_feature_importance(prettified=True))
0          60     6.386190
1           0     5.861182
2          36     5.290110
и вижу фичу 0 она же по логике отключена в column_description
спасибо
источник

AN

Alex Nemoy in catboost_ru
вопрос снимаю - The feature indices and the column indices usually differ. - сорян
источник
2020 July 30

A

Alena in catboost_ru
Почему-то catboost не взлетает. Пробовала с разными numpy (1.16.1,   1.17.3,   1.19.1), но не помогает. Что я делаю не так? catboost 0.23.2
Traceback (most recent call last):
 File "/mnt/tmp/spark-3e8fc98d-0d03-431e-b4ed-0c9207e0df62/spark_news_sentences.py", line 17, in <module>
   from catboost import CatBoostClassifier, Pool
 File "/usr/local/lib64/python3.6/site-packages/catboost/__init__.py", line 1, in <module>
   from .core import FeaturesData, EFstrType, Pool, CatBoost, CatBoostClassifier, CatBoostRegressor, CatBoostError, cv, train, sum_models, _have_equal_features, to_regressor, to_classifier, MultiRegressionCustomMetric, MultiRegressionCustomObjective  # noqa
 File "/usr/local/lib64/python3.6/site-packages/catboost/core.py", line 42, in <module>
   from . import _catboost
 File "numpy.pxd", line 918, in init _catboost
ValueError: numpy.ufunc size changed, may indicate binary incompatibility. Expected 216 from C header, got 192 from PyObject
источник

FZ

Filipp Zhinkin in catboost_ru
Привет! Использую catboost в проекте на джаве, возникла необходимость чтения метаданных модели. В мастере поддержку метаданных уже добавили: https://github.com/catboost/catboost/commit/5d4f43e4cfdd4e8a93a764f2eea0e25d5c4daf9d#diff-8401e5ffce585c23ef2ce44fdc565e51. Есть ли какие-то прогнозы относительно даты релиза, в который это попадет?
источник

SK

Stanislav Kirillov in catboost_ru
Да, в релиз 0.24 попадет. Планируем в начале следующей недели опубликовать.
источник

FZ

Filipp Zhinkin in catboost_ru
Спасибо!
источник

AN

Alex Nemoy in catboost_ru
Привет
после обучения модель пишет лучшую итерацию и ошибку на валидации в лог - а как эти параметры забрать из самой модели после обучения,
источник
2020 July 31

SM

Sergey Melekhin in catboost_ru
Всем привет! Пытаюсь сделать custom loss для классификатора, у меня обучение на custom Logloss из документации (https://catboost.ai/docs/concepts/python-usages-examples.html#user-defined-loss-function) работает не так, как "родной" Logloss. Не знаете, почему, и как сделать хотя бы кастомный логлосс не хуже родного?
источник

SK

Stanislav Kirillov in catboost_ru
Alex Nemoy
Привет
после обучения модель пишет лучшую итерацию и ошибку на валидации в лог - а как эти параметры забрать из самой модели после обучения,
Есть параметр use_best_model, который автоматически обрезает модель до лучшей итерации после окончания обучения
источник

SK

Stanislav Kirillov in catboost_ru
Он автоматически включается, если вы передаете евал-сет с нетривиальными метками (хотя бы у одного объекта метка отличается у остальных)
источник