Size: a a a

2020 June 01

SK

Stanislav Kirillov in catboost_ru
Stepan Frolov
Добрый день.
Обнаружил, что при кросс-валидации catboost использует процессор (i5 3550) на 10-20%. Причем нагрузка равномерно распределена на все ядра. При этом при обычном обучении все ядра и процессор в целом используется по максимуму. Нормально ли это, и если нет, то что можно с этим сделать?
Это не очень нормально, желательно сделать issue про это, чтоб мы не забыли посмотреть.
источник

SF

Stepan Frolov in catboost_ru
Stanislav Kirillov
Это не очень нормально, желательно сделать issue про это, чтоб мы не забыли посмотреть.
Окей, сейчас создам issue
источник

SK

Stanislav Kirillov in catboost_ru
Было бы здоворо, чтоб были данные, на которых такое поведение воспроизводится
источник

SK

Stanislav Kirillov in catboost_ru
и параметры системы и запуска- тип процессора, количество потоков, параметры обучения
источник

SF

Stepan Frolov in catboost_ru
Хорошо
источник

VB

Victor Bartel in catboost_ru
Stanislav Kirillov
Если значений катфичи было меньше, чем one hot max size - то в случае нового, невиданного до этого значения просто везде в сплитах дерева, использующих значения этой фичи мы пойдем условно "налево". Для счетчиков проще сослаться на документацию: https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html , но если вкратце, то мы будем использовать prior
Спасибо, понял вас, а подскажите что будет если значений больше чем one hot max size и категория неизвестна.
источник

AD

Anna Veronika Dorogu... in catboost_ru
Victor Bartel
Спасибо, понял вас, а подскажите что будет если значений больше чем one hot max size и категория неизвестна.
https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html - вот тут в дроби countInClass и totalCount будет равно нулю, поэтому averageTarget будет равно prior.
источник

VB

Victor Bartel in catboost_ru
Anna Veronika Dorogush
https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html - вот тут в дроби countInClass и totalCount будет равно нулю, поэтому averageTarget будет равно prior.
👍  спасибо
источник

S

Sergii in catboost_ru
Хотел спросить, почему при кросс-валидации катбуст не подбирает автоматически learning_rate, а делает это только при обучении model.fit()?
источник

OT

Oscar Tempter in catboost_ru
Можете что нибудь посоветовать  для обработки данных чтобы катбуст лучше справился? У меня в данных часть столбцов статические данные и часть столбцов данные которые аккумулируются с каждым новым онлайном пользователя. Итоговый таргет стоит на последней дате онлайна, в выборку попадает не более чем 7 онлайнов на пользователя. Большинство фичей статические, но те несколько которые являются нестатичными очень важны, поэтому без них никак. Получается у меня на одного пользователя максимум 7 наблюдений и большинство фичей повторяются. После добавления данных и появления повторов качество только упало. Подозреваю как раз из-за того что катбуст не может хорошо классифицировать статические данные тк таргет для них меняется. Может быть 6 наблюдений на пользователя с таргетом 0 и только последнее наблюдение с таргетом 1. Как быть ?
источник

OT

Oscar Tempter in catboost_ru
В выборке много категориальных данных, я их решил не предобрабатывать, думаю что может еще в этом проблема ? Итоговая размерность данных я уверен очень большая. Несколько тысяч колонок. Возможно если снизить размерность обработав вручную категориальные данные, то так получится помочь катбусту ?
источник
2020 June 02

VB

Victor Bartel in catboost_ru
Добрый день,

Я все пытаюсь разобраться с механизмом кодирования категорийный значений. Благодаря вашим пояснениям, формула кодирования мне понятна.

Хотел бы уточнить как получается Function value для каждого документа(например из таблицы https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html):
Object # f1  f2  f3    ...   Function value
1     2     40     ...     rock     1
7     5     42     ...     rock     1
Так же хотел бы уточить как выбирается значение константы prior.

Заранее вам благодарен
источник

VB

Victor Bartel in catboost_ru
Oscar Tempter
В выборке много категориальных данных, я их решил не предобрабатывать, думаю что может еще в этом проблема ? Итоговая размерность данных я уверен очень большая. Несколько тысяч колонок. Возможно если снизить размерность обработав вручную категориальные данные, то так получится помочь катбусту ?
> Итоговая размерность данных я уверен очень большая. Несколько тысяч колонок.

А вы не пробовали размерность снижать через PCA?
источник
2020 June 03

ND

Nikita Dmitriev in catboost_ru
Всем привет!)
Завтра в 18:00 состоится наш туториал по новым фичам катбуста, присоединяйтесь!
https://events.yandex.ru/events/tutorial-catboost-04-06-2020?from=tg_catboost
источник

NT

Nikolay Tolstov in catboost_ru
Спасибо 👍
источник

IP

Igor Popov in catboost_ru
Если подтверждение заявки еще не пришло, хотя подавал заявку давно то есть ли шансы?)
источник

ND

Nikita Dmitriev in catboost_ru
Да, завтра утром, в день события, направим всем приглашалки в зум)
источник

IP

Igor Popov in catboost_ru
Супер)
источник

sg

sergey g in catboost_ru
Когда хочу использовать метрику из туториала https://github.com/catboost/tutorials/blob/master/custom_loss/custom_metric_tutorial.md . То выдает ошибку.
источник

sg

sergey g in catboost_ru
Для того, чтобы заработала метрика, написанная на C++ мне пришлось подредактировать следующие файлы (см. скриншот). Уважаемые разработчики, сообщите, пожалуйста, действительно ли требуется отредактировать столько файлов, чтобы вставить кастомную метрику на c++.
источник