Size: a a a

2019 April 04

А

Андрей in catboost_ru
Андрей
Мне стоило бы указать, что в колонках a, b, c объекты одного множества. То есть все значения a = всем значениям b = всем значениям c. То есть можно ли сказать one-hot, чтобы создал колонки для всех значений. Или все же сделать ручками?
но в тренировочном есть не все значения этих колонок, возможно, в тесте есть те, что не встречаются в трейне
источник

ИБ

Иван Брагин in catboost_ru
Андрей
Мне стоило бы указать, что в колонках a, b, c объекты одного множества. То есть все значения a = всем значениям b = всем значениям c. То есть можно ли сказать one-hot, чтобы создал колонки для всех значений. Или все же сделать ручками?
ну а у одного объекта a,b и c разные могут быть? просто множество одинаковое?
источник

А

Андрей in catboost_ru
Да, правда
источник

ИБ

Иван Брагин in catboost_ru
а это просто раскрытие списка из 3 элементов в 3 признака, то есть если ты поставил a=1, b=10, c=15 это значит что у объекта есть 3 категории 1,10 и 15 и впринципе просто так случилось что именно a = 1, b=10 а не наоборот
источник

ИБ

Иван Брагин in catboost_ru
или это именно независимые категории?
источник

А

Андрей in catboost_ru
Иван Брагин
а это просто раскрытие списка из 3 элементов в 3 признака, то есть если ты поставил a=1, b=10, c=15 это значит что у объекта есть 3 категории 1,10 и 15 и впринципе просто так случилось что именно a = 1, b=10 а не наоборот
Да, это теоретически массив из 3 элементов
источник

ИБ

Иван Брагин in catboost_ru
вот это уже сложно, не представляю как работать с признаком который является списком категорий.
источник

А

Андрей in catboost_ru
Спасибо, что старались помочь ;)
источник

IF

Ivan Filonov in catboost_ru
как с текстом? тоже ведь вполне себе список категорий
источник

А

Андрей in catboost_ru
А как это грамотно сделать?
источник

ИБ

Иван Брагин in catboost_ru
doc2vec
источник

ИБ

Иван Брагин in catboost_ru
ну лучше попробовать и так и так, если работать как с текстом получается что target encoding не будет, кто значет что лучше пойдет
источник

IF

Ivan Filonov in catboost_ru
или тупейший, но все же рабочий метод - bag of xxx
источник

IF

Ivan Filonov in catboost_ru
т.е. раз объекты из одного множества - то и onehot-ить их в один набор колонок
источник

MK

Maxim Khrisanfov in catboost_ru
Вопрос по параметру simple_ctr, как вообще алгоритм выбирает какой из методов использовать (Borders, Buckets, FeatureFreq) или он использует все?
источник

AD

Anna Veronika Dorogush in catboost_ru
Somebody has answered in our survey, that documentation is not working in Chrome. Please, come back to us, we need you to reproduce and fix this!
источник

AD

Anna Veronika Dorogush in catboost_ru
Maxim Khrisanfov
Вопрос по параметру simple_ctr, как вообще алгоритм выбирает какой из методов использовать (Borders, Buckets, FeatureFreq) или он использует все?
Для классификации используется Borders с одним бордером, для регрессии по умолчанию тоже один бордер и Borders, для мультикласса - Buckets, то есть по счетчику на каждый класс.
источник

MK

Maxim Khrisanfov in catboost_ru
Anna Veronika Dorogush
Для классификации используется Borders с одним бордером, для регрессии по умолчанию тоже один бордер и Borders, для мультикласса - Buckets, то есть по счетчику на каждый класс.
там есть возможность указать несколько параметров, например simple_ctr = ["Borders:CtrBorderType=MinEntropy", "FeatureFreq:CtrBorderType=MinEntropy"]
это корректный синтаксис и как это работает?
источник

AD

Anna Veronika Dorogush in catboost_ru
Да, можно несколько указать. Тогда считается несколько счетчиков. Синтаксис не помню, нужно в документации уточнить.
источник

MK

Maxim Khrisanfov in catboost_ru
ok, теперь понятно, по-умолчанию 1, но можно несколько
источник