Size: a a a

2019 April 01

SK

Stanislav Kirillov in catboost_ru
не совсем так
источник

SK

Stanislav Kirillov in catboost_ru
ohe работает очень быстро, но он не применяется если кардинальность фичи больше, чем one-hot-max-size
источник

SK

Stanislav Kirillov in catboost_ru
для таких случаев работаю счетчики
источник

N

Nikolay in catboost_ru
Если признак категориальный и не числовой и не упало, то наверное он примерился ( значение меньше obe-hot-max-size)
источник

SK

Stanislav Kirillov in catboost_ru
3 категориальные с 99/59/1743 - у нас по умолчанию one_hot_max_size == 2
источник

SK

Stanislav Kirillov in catboost_ru
Так что в данном случае как раз счетчики
источник

SK

Stanislav Kirillov in catboost_ru
можно попробовать поднять этот параметр до 100 и посмотреть на скорость
источник

SK

Stanislav Kirillov in catboost_ru
Nikolay
Если добавляется 1800 колонок , то должно и замедлится
при ohe никакие колнки не добавляются, считаются гистограммы по каждому значению one-hot фичи точно таким же образом, как и для float фичей, только подсчет score сплита разный
источник

N

Nikolay in catboost_ru
А в гистограмме какой размер бакета ? Или там всегда 256 бакетов ?
источник

SK

Stanislav Kirillov in catboost_ru
это довольно сложный вопрос :) В следующем релизе будет куча оптимизаций про это, но для версии 0.13.1 да, в гистограмме максимум 255 значений
источник

SK

Stanislav Kirillov in catboost_ru
Ну и плюс уже в текущем релизе есть механизм перепаковки 8 бинарных гистограм (то есть только с двумя бинами) в одну
источник

А

Андрей in catboost_ru
Stanislav Kirillov
это довольно сложный вопрос :) В следующем релизе будет куча оптимизаций про это, но для версии 0.13.1 да, в гистограмме максимум 255 значений
А когда ориентировочно будет релиз?
Спасибо за отличную библиотеку.
источник

SK

Stanislav Kirillov in catboost_ru
мы уже на пути к нему :)
источник

SK

Stanislav Kirillov in catboost_ru
есть несколько блокеров внутренних, мы их чиним и катим сразу
источник

А

Андрей in catboost_ru
Очень круто
источник

А

Андрей in catboost_ru
Посоветуйте, пожалуйста, где можно облачно посчитать? Фичей ~2200, на Google Colab 65 тысяч итераций считает час. Нужно быстрее.
источник

SK

Stanislav Kirillov in catboost_ru
а сколько объектов?
источник

А

Андрей in catboost_ru
100 тысяч в трейне
источник

А

Андрей in catboost_ru
99 с копейками на самом деле
источник

А

Андрей in catboost_ru
colab какую-то интересную штуку добавил, но не очень понятно работает ли это, если это мощность GPU
источник