Size: a a a

2018 December 30

OO

Oleg Okeev in catboost_ru
Oscar Tempter
когда я этим пользовался я с ходу не нашел и написал свой скриптик надстрйоку над model.predict_proba()
Как сложно , но ведь сделана эта функция , наверное для применения в модели ?
источник

OO

Oleg Okeev in catboost_ru
Может это border_count ?
источник

OT

Oscar Tempter in catboost_ru
Oleg Okeev
Как сложно , но ведь сделана эта функция , наверное для применения в модели ?
Да нет, не сложно: буквально две строчки с if
источник

OO

Oleg Okeev in catboost_ru
Кстати чтобы классы сбалансировать это функция class_weights? Или она не для этого ?
источник

OT

Oscar Tempter in catboost_ru
Нет она не для этого
источник

OT

Oscar Tempter in catboost_ru
Или да...
источник

OT

Oscar Tempter in catboost_ru
Я ошибся сначала
источник

OT

Oscar Tempter in catboost_ru
Ну она косвенно балансирует классы, на самом деле просто даёт разные веса объектам разных классов, поэтому при обучении модель сильнее штрафует за объекты того класса в котором меньше объектов.
источник

OO

Oleg Okeev in catboost_ru
Oscar Tempter
Ну она косвенно балансирует классы, на самом деле просто даёт разные веса объектам разных классов, поэтому при обучении модель сильнее штрафует за объекты того класса в котором меньше объектов.
Значит более менее подойдёт , для меня разбивка руками - мучение , так как куча df
источник

OO

Oleg Okeev in catboost_ru
И кстати для cv есть Настройка stratified=True для этого же
источник

OT

Oscar Tempter in catboost_ru
Oleg Okeev
И кстати для cv есть Настройка stratified=True для этого же
Этот параметр забоится о том чтобы во все фолды попало одинаковое число объектов каждого класса
источник

MK

Maxim Khrisanfov in catboost_ru
А надо ли для вероятностей балансировать классы? Дисбаланс это свойство данных если собраны верно то с дисбалансом ничего делать не нужно.
источник

MK

Maxim Khrisanfov in catboost_ru
Oleg Okeev
Кстати чтобы классы сбалансировать это функция class_weights? Или она не для этого ?
Выше вроде писал что нужны вероятности
источник

OT

Oscar Tempter in catboost_ru
Maxim Khrisanfov
А надо ли для вероятностей балансировать классы? Дисбаланс это свойство данных если собраны верно то с дисбалансом ничего делать не нужно.
Насколько я понимаю: за время обучения, если классы не сбалансированны, то модель модель научится определять один из классов лучше чем другой,  ТК сдвиг градиента будет чаще происходить в сторону одного из классов
источник

OT

Oscar Tempter in catboost_ru
Поэтому нужно назначить веса объектам разных классов чтобы избавиться от этого дисбаланса во время обучения
источник

MK

Maxim Khrisanfov in catboost_ru
Ну если класс действительно редкий и нам нужны вероятности пусть они будут в диапазоне например 0.05-0.1, нам по сути так надо. Или CatBoost обязательно баланс нужен для нормальной работы?
источник

MK

Maxim Khrisanfov in catboost_ru
Я с помощью катбуста решал задачу мультиклассификации на 150 классов там о балансе речи даже не идёт и все норм было с вероятностями
источник

OT

Oscar Tempter in catboost_ru
Maxim Khrisanfov
Я с помощью катбуста решал задачу мультиклассификации на 150 классов там о балансе речи даже не идёт и все норм было с вероятностями
Вполне возможно что результат работы был бы лучше если бы классы были сбалансированы
источник

MK

Maxim Khrisanfov in catboost_ru
Ну может быть. Если кто то из яндекса прокомментирует было бы круто.
источник

OT

Oscar Tempter in catboost_ru
Еще было бы круто если скинули сюда статью про дисбаланс классов и как с этим бороться
источник