Телеграмм чат группы catboost

Size: a a a

catboost_ru

875 membersпожаловаться на группу

2020 July 25

Alex Nemoy in catboost_ru

спасибо за ответы

источник

16:17пожаловаться #1

Alex Nemoy in catboost_ru

Подскажите пожалуйста
Если при решении классификации есть диаметральные примеры
Где объект описанный фичами имеет различные метки
Например векторA [1,2,3]>1 и векторB [1,2,3]>0 и векторов А 50 шт а векторов Б 30шт
Catboost сможет разделить эти события самостоятельно корректно или надо на этапе предобработки это предусмотреть и обработать ?
спасибо

источник

17:33пожаловаться #2

2020 July 26

K-S in catboost_ru

А как вы хотите, чтоб алгоритм их разделил, если объекты идентичны?

источник

16:07пожаловаться #3

Alex Nemoy in catboost_ru

по сумме больших наблюдений. например если дождь шел после пасмурно 50 раз а солнечно после пасмурно было 30 раз то пасмурно вероятнее отнести к плохой погоде а не к хорошей. вопрос в том убирать ли взаимоисключающие наблюдения ?

источник

16:51пожаловаться #4

Dmitri Lihhatsov in catboost_ru

Tymur Prorochenko

Немного оффтоп но интересно: я недавно перешёл на проект по антифроду для банка - у нас рассматривают unsupervised подходы обучения, данных много и вся работа в спарке. По итогу обучения определяются аномалии, которые потом кластеризируют и аналитики проставляют уровни риска (все с целью поиска фрода о котором заранее не известно). Так вот интересно - сталкивались ли вы с чем то похожим и есть ли интересные материалы которые можно почитать на эту тему?

Тимур, в банках много разного фрода. Карточный фрод, о котором я писал - лишь малая его часть. Существенно большую - в денежных единицах - занимает то, что называется Authorised Push Payments (APP), money muling, Anti-Money Laundering (AML) и Terrorism Financing. Не говоря уже о махинациях на фондовом рынке.

Unsupervised ML, с моей точки зрения, успешнее применяются на AML и фроде на фондовых рынках, т.к labelled data гораздо сложнее получить и гораздо интереснее применять кластеризацию и даже графовые алгоритмы, чтобы отыскивать аномалии.

У нас тоже ведутся работы в этой области, но публикаций пока нет.

Кстати вот ещё свежая статья от умных ребят из Feedzai - они RNN натренировали предотвращать CNP fraud (карточный фрод). Пишут, результаты чуть лучше, чем с деревьями и лесами. https://arxiv.org/pdf/2002.05988.pdf

Успехов вам!

источник

17:42пожаловаться #5

K-S in catboost_ru

Alex Nemoy

Ну так бустинг так и отработает. Если среди 10 сэмплов с идентичным признаковым описанием шесть имело класс 1, а четыре — класс 0, то для нового объекта с таким же признаковым описанием он 0.6 вероятность будет давать

источник

21:33пожаловаться #6

Alex Nemoy in catboost_ru

Спасибо

источник

21:35пожаловаться #7

2020 July 27

АР

Андрей Рыжик... in catboost_ru

Всем привет! Не знаете есть ли какое-нибудь руководство по кэтбусту прям для совсем начинающих? Для тех кто не очень знает питон и, тем более, никогда не работал с машинным обучением. Спасибо!

источник

17:19пожаловаться #8

LS in catboost_ru

Андрей Рыжик

Посмотри туториал

https://youtu.be/ZaP5qFSIcIw

Там хорошо все объясняется

источник

17:20пожаловаться #9

АР

Андрей Рыжик... in catboost_ru

Спасибо!

источник

17:24пожаловаться #10

2020 July 28

Alex Nemoy in catboost_ru

Привет
использую Pool для загрузки данных
применяю файл с column_description
0 Auxiliary
но после тренировки вызываю
print(model.get_feature_importance(prettified=True))
0 60 6.386190
1 0 5.861182
2 36 5.290110
и вижу фичу 0 она же по логике отключена в column_description
спасибо

источник

22:55пожаловаться #11

Alex Nemoy in catboost_ru

вопрос снимаю - The feature indices and the column indices usually differ. - сорян

источник

22:58пожаловаться #12

2020 July 30

Alena in catboost_ru

Почему-то catboost не взлетает. Пробовала с разными numpy (1.16.1, 1.17.3, 1.19.1), но не помогает. Что я делаю не так? catboost 0.23.2

Traceback (most recent call last):
  File "/mnt/tmp/spark-3e8fc98d-0d03-431e-b4ed-0c9207e0df62/spark_news_sentences.py", line 17, in <module>
    from catboost import CatBoostClassifier, Pool
  File "/usr/local/lib64/python3.6/site-packages/catboost/__init__.py", line 1, in <module>
    from .core import FeaturesData, EFstrType, Pool, CatBoost, CatBoostClassifier, CatBoostRegressor, CatBoostError, cv, train, sum_models, _have_equal_features, to_regressor, to_classifier, MultiRegressionCustomMetric, MultiRegressionCustomObjective  # noqa
  File "/usr/local/lib64/python3.6/site-packages/catboost/core.py", line 42, in <module>
    from . import _catboost
  File "numpy.pxd", line 918, in init _catboost
ValueError: numpy.ufunc size changed, may indicate binary incompatibility. Expected 216 from C header, got 192 from PyObject

источник

10:23пожаловаться #13

Filipp Zhinkin in catboost_ru

Привет! Использую catboost в проекте на джаве, возникла необходимость чтения метаданных модели. В мастере поддержку метаданных уже добавили: https://github.com/catboost/catboost/commit/5d4f43e4cfdd4e8a93a764f2eea0e25d5c4daf9d#diff-8401e5ffce585c23ef2ce44fdc565e51. Есть ли какие-то прогнозы относительно даты релиза, в который это попадет?

GitHub

Expose more in the catboost java interface · catboost/catboost@5d4f43e

A fast, scalable, high performance Gradient Boosting on Decision Trees library, used for ranking, classification, regression and other machine learning tasks for Python, R, Java, C++. Supports computation on CPU and GPU. - catboost/catboost

источник

12:03пожаловаться #14

Stanislav Kirillov in catboost_ru

Да, в релиз 0.24 попадет. Планируем в начале следующей недели опубликовать.

источник

12:14пожаловаться #15

Filipp Zhinkin in catboost_ru

Спасибо!

источник

12:20пожаловаться #16

Alex Nemoy in catboost_ru

Привет
после обучения модель пишет лучшую итерацию и ошибку на валидации в лог - а как эти параметры забрать из самой модели после обучения,

источник

20:21пожаловаться #17

2020 July 31

Sergey Melekhin in catboost_ru

Всем привет! Пытаюсь сделать custom loss для классификатора, у меня обучение на custom Logloss из документации (https://catboost.ai/docs/concepts/python-usages-examples.html#user-defined-loss-function) работает не так, как "родной" Logloss. Не знаете, почему, и как сделать хотя бы кастомный логлосс не хуже родного?

catboost.ai

Usage examples - CatBoost. Documentation

Train a classification model on GPU:from catboost import CatBoostClassifier train_data = [[0, 3], [4, 1], [8, 1], [9, 1]] train_labels = [0, 0, 1, 1] model = CatBoostClassifier(iterations=1000, task_type="GPU", devices='0:1') model.fit(train_data, train_labels, verbose=False)

источник

09:56пожаловаться #18

Stanislav Kirillov in catboost_ru

Alex Nemoy

Есть параметр use_best_model, который автоматически обрезает модель до лучшей итерации после окончания обучения

источник

11:44пожаловаться #19

Stanislav Kirillov in catboost_ru

Он автоматически включается, если вы передаете евал-сет с нетривиальными метками (хотя бы у одного объекта метка отличается у остальных)

источник

11:49пожаловаться #20