Ну если класс действительно редкий и нам нужны вероятности пусть они будут в диапазоне например 0.05-0.1, нам по сути так надо. Или CatBoost обязательно баланс нужен для нормальной работы?
Сейчас не должен быть намного медленнее. От данных зависит, где-то медленнее, где-то быстрее. Это про цпу, на гпу должно быть всегда быстрее. Если это не так, скинь данные посмотреть.
А что значит кстати? На этапе сохранения модели при расчете через GPU, но файл сохраняется bin и json Process finished with exit code -1073740791 (0xC0000409)
Добрый день. Подскажите, если кто знает. Если есть несколько categorical features у которых значения только 0 или 1, то есть ли преимущество делать их numerical в каких либо ситуациях. Например, в случае неопределенности полагаться на border=0.5.
Добрый день. Подскажите, если кто знает. Если есть несколько categorical features у которых значения только 0 или 1, то есть ли преимущество делать их numerical в каких либо ситуациях. Например, в случае неопределенности полагаться на border=0.5.
По умолчанию кат фичи с 2 значениями обрабатываются при помощи one-hot encoding, поэтому будет тот же результат
Для всех считались счетчики - типа target-encoding, но по перестановке. Это лучшее, что можно сделать с катфичами, лучше, чем one-hot encoding, поэтому его и делали.
Добрый день. Что будет делать Catboost, если в колонке с предиктором иногда будет значение None Выбросит всю колонку или все же обработает строки с None, и там где есть значение учтёт при прогнозе, а там где нет, не учтет?
на все события в которых играет роль случайность, зафиксировав определенный random seed вы гарантируете одинаковую работу алгоритма везде где зафиксирован такой же random seed при прочих равных