Телеграмм чат группы catboost

20:09пожаловаться #4

Andrey in catboost_ru

все крутится на data.table, на фолды я тоже разбиваю с использованием этой библиотеки

20:10пожаловаться #5

Dmitry Baksheev in catboost_ru

Oleh Yashchuk

Такая ошибка:
Error in catboost.from_matrix(as.matrix(preprocessed), label, cat_features, :
Unsupported label type, expecting double or int, got: integer

Это сообщение отсюда, непонятно как одновременно typeof(label) is integer и !is.integer(label). Идеи есть?

21:03пожаловаться #6

Oleh Yashchuk in catboost_ru

Код я смотрел. Идей нет.

21:07пожаловаться #7

Oleh Yashchuk in catboost_ru

Andrey спасибо! позже разберусь

21:08пожаловаться #8

2018 December 15

Добрый день! Подскажите пожалуйста, если мне нужно сравнивать два объекта(без кат фичей) то мне стоит подавать разность объектов по каждой фиче или просто последовательно фичи у обоих объектов?

14:52пожаловаться #9

Yaroslav Sviridov

Добрый!
> мне нужно сравнивать два объекта(без кат фичей)
что имеется ввиду? Нужно натренировать модель с помощью которой можно сравнивать объекты?

17:10пожаловаться #10

Andrei Khropov

Да, верно. Модель будет сравнивать объекты.

17:11пожаловаться #11

А объекты как-то объединены в группы (например, это ответы на запрос)?

17:14пожаловаться #12

У объектов есть вещественные фичи, категориальных нет, объекты не объединены в группы.

17:14пожаловаться #13

CatBoost — Objectives and metrics — Yandex Technologies

Ок. CatBoost тренирует формулу, которая является суммой деревьев решений, поэтому ее значения в общем случае не зависят линейно от фичей, поэтому их суммирование или вычитание не имеет смысла. Для данных с группами в catboost есть режимы где можно тренировать прямо на обучающей выборке пар если указать в качестве loss_function PairLogit или PairLogirPairwise (https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/#loss-functions__ranking). Если групп нет, то тогда видимо стоит использовать просто регрессию и ранжировать объекты по значению формулы.

Yandex

This section contains basic information regarding the supported metrics for various machine learning problems. Regression Classification Multiclassification Ranking

17:23пожаловаться #14

Спасибо большое :)

17:28пожаловаться #15

Можно также попробовать учить бинарный классификатор для объектов-пар, который будет предсказывать является ли в паре первый объект больше второго. Соответственно, в рамках этой задачи объект = пара и фичи уже для пары, тут могут уже быть разности фичей объектов в паре или какие-то другие комбинации значений фичей объектов в паре можно пробовать.

17:41пожаловаться #16

2018 December 17

Egor Krasheninnikov in catboost_ru

Добрый день!
Есть тут кто-нибудь, кто сталкивался с такой проблемой: катбуст стабильно выдает точность на валидации больше, чем на трэйне, если не выкручивать глубину в достаточно большие числа (10-12)
При этом сплиты делаются правильно
Данных для валидации тоже достаточно по количеству
Оценка точности производится правильно
Подскажите, чем это может быть вызвано

15:58пожаловаться #17

Anna Veronika Dorogush in catboost_ru

если обучаешься с катфичами, то по ним считаются счетчики на трейне. На трейне они считаются по перестановке, а на валидации по всему обучающему множеству.

15:59пожаловаться #18

Anna Veronika Dorogush in catboost_ru

поэтому эти фичи у валидации сильнее, чем у трейна

15:59пожаловаться #19

Egor Krasheninnikov in catboost_ru

То есть обработка катфечей на трейне и на тесте происходит по разному?