Size: a a a

2021 April 07

ЕП

Евгений Петров... in catboost_ru
внешние контрибьюторы делают тюториал с автоэнкодером для временных рядов и сравнят его с нейронками. сделают ли будет ясно через месяц или два.
источник

A

Anonumous in catboost_ru
Здравствуйте, а можете дать какой то материал по рекомендательным системам catboost?
источник

A

Andrew in catboost_ru
Там есть tutorial про ranking, или хочется чего-то покруче?
А так, в нем есть встроенная поддержка рекомендательного режима, в остальном обычный ML.
источник

A

Anonumous in catboost_ru
Хочется что то покруче
источник
2021 April 08

TB

Taras B in catboost_ru
@kizill о чем эта ошибка?
/opt/conda/lib/python3.7/site-packages/catboost/core.py in _train(self, train_pool, test_pool, params, allow_clear_pool, init_model)
  1364
  1365     def _train(self, train_pool, test_pool, params, allow_clear_pool, init_model):
-> 1366         self._object._train(train_pool, test_pool, params, allow_clear_pool, init_model._object if init_model else None)
  1367         self._set_trained_model_attributes()
  1368

_catboost.pyx in _catboost._CatBoost._train()

_catboost.pyx in _catboost._CatBoost._train()

CatBoostError: catboost/private/libs/feature_estimator/embedding_feature_estimators.cpp:45: Dimension of the projection should be less then total dimension of the embedding
источник

a

arcadii in catboost_ru
Доброго утра. Решаю задачу многоклассовой классификации трафика на основе нетфлоу статистики (4 категориальных столбца и 33 численных, 36млн строк, 1% составляет все виды аномалий, остальные 99 - трафик без атак) и применение  случайного леса даёт на 5% точность на классах с атаками лучше, чем catboost из коробки. При этом на части датасета(200к записей) качество catboost’a выше. А при использовании модели с «наилучшим качеством» с pydata 2018  точность на атаках становится хуже, чем из коробки процентов на 15.

Могу ли я как-то улучшить качество модели catboost?

На ютубе под роликом с pydata 2018 был комментарий: «catboost уступает на сложных моделях случайному лесу», имеет ли он отношение к действительности и если да, то что такое сложные модели?
источник

T

Tj in catboost_ru
Добрый день.
classificatio_tutorial     показывает функцию     select_threshold     как получить     threshold     задав уровень ошибки для     FNR     или     FPR.
источник

ND

Nikita Dmitriev in catboost_ru
Привет!
Есть специальная функция для этого:
https://catboost.ai/docs/concepts/python-reference_utils_select_threshold.html
источник

T

Tj in catboost_ru
Никита, спасибо большое за туториал на ютюбе!!!

Вопрос :   нет функции которая покажет какая будет ошибка для FPR и FNR  на выбранный мной threshold ?
Спасибо!
источник

TP

Tymur Prorochenko in catboost_ru
Всем привет! Хочу поблагодарить команду работающую над катбустом. На прошлой неделе получилось забахать 2 место 🥳 и 3к$ в мл соревновашке с временными рядами используя только cb для предикта.
источник

TP

Tymur Prorochenko in catboost_ru
и пользуясь случаем прошу дочинить f1 eval metric на GPU, при авто весах классов он всегда считается как weighted, даже если ставить average = macro
источник

TP

Tymur Prorochenko in catboost_ru
источник

TP

Tymur Prorochenko in catboost_ru
после этого на use_weights=False уже не ругается но считает не правильно
источник

IL

Ivan Lyzhin in catboost_ru
Поздравляю! А что за соревнование? На какой площадке проходило? Будет очень круто, если поделишься идеями решения. Мы думаем над тем, чтобы сделать что-то полезное для временных рядов в катбусте, и твои идеи будут весьма кстати.
источник

IL

Ivan Lyzhin in catboost_ru
источник

L

LS in catboost_ru
Привет! Поздравляю! Вы использовали только данные состоящие из чисел или текстовые тоже? Сколько фичей было?
источник

TP

Tymur Prorochenko in catboost_ru
Ну каггл табличек что то мало делает, приходится искать другие платформы, ну и конкуренция не супер высокая =)

https://unearthed.solutions/u/competitions/99/forum#/question/f2ef2460-93d5-493b-9d03-f4031be0b516
источник

TP

Tymur Prorochenko in catboost_ru
про временные ряды наверно можно говорить в 2х разрезах: когда нужны предикты на разное время вперед или когда временные ряды это доступные фичи перед предиктом (в соревке были time series фичи)

Очевидно что для бустинга имея time series на входе таки нужно собирать разные агрегации и лаги (среднее, стд, медианы, тренды и тд)

У меня получился очень широкий датасет вначале (2500 семплов и 1000+ числовых фичей), встоенных подходов к feature selection не хватило
источник

TP

Tymur Prorochenko in catboost_ru
я отбирал фичи так: линеаризовать зависимость с таргетом через енкодинг каждой отдельной фичи рандом форестом, потом бахнул линейные модели с л1 регуляризацией. на отобранных фичах уже катбуст
источник

TP

Tymur Prorochenko in catboost_ru
и можно много еще чего интересного придумывать, но вам же тоже нужен какой то баланс что тащить в библиотеку а что нет. ато космолёт какой то может получиться))
источник