Size: a a a

2019 February 25

MK

Maxim Khrisanfov in catboost_ru
Sasha Zhu
Ребят, а подскажите пожалуйста, как правильно сделать оверсемплинг с катбустом?
думаю только специализированными библиотеками
источник

AK

Andrei Khropov in catboost_ru
Sasha Zhu
Ребят, а подскажите пожалуйста, как правильно сделать оверсемплинг с катбустом?
А почему именно оверсамплинг?  Если метрика/loss с весами можно дать веса части примеров больше. Эффект должен быть схожий
источник

SZ

Sasha Zhu in catboost_ru
Andrei Khropov
А почему именно оверсамплинг?  Если метрика/loss с весами можно дать веса части примеров больше. Эффект должен быть схожий
Я, честно говоря, не совсем понимаю, как этим пользоваться
источник

K

K-S in catboost_ru
Andrei Khropov
А почему именно оверсамплинг?  Если метрика/loss с весами можно дать веса части примеров больше. Эффект должен быть схожий
А разве придание веса отдельным наблюдениям не есть тот же оверсэмплинг?
источник

AK

Andrei Khropov in catboost_ru
Это близко по смыслу, но не всегда одно и то же. Если, например, в обучении используются подвыборки обучающего множества, то они будут немного разными для случая oversampling через добавление примеров или просто весов. Пример с весом может либо попасть в выборку либо нет, а в случае размножения часть может попасть, а часть может и нет. При достаточном размере выборке результаты должны быть близки, но веса могут быть эффективнее по производительности, так как не надо увеличивать датасет.
источник

P

Polosataya in catboost_ru
Здравствуйте. Пытаюсь train использовать, но выходт ошибка
train() got multiple values for argument 'pool'
источник

AK

Andrei Khropov in catboost_ru
Можно чуть больше контекста (кода)?
источник

P

Polosataya in catboost_ru
Конечно
 pool = Pool(data=train_x, label = train_y)  cat_params = {'depth': 6}  cat_train = catboost.train(cat_params, pool = pool,  num_boost_round=10)
источник

P

Polosataya in catboost_ru
Размеры трейна и теста ((191821, 100), (191821,))
источник

AK

Andrei Khropov in catboost_ru
Ну так тут ошибка, первый аргумент у 'train' это pool
источник

AK

Andrei Khropov in catboost_ru
а, хотя нет, прошу прощения
источник

AK

Andrei Khropov in catboost_ru
В общем, да, тут у нас в коде ошибка и порядок аргументов не соответствует документации. Пока стоит просто явно передавать все параметры с именами
источник

AK

Andrei Khropov in catboost_ru
catboost.train(params=cat_params, pool = pool,  num_boost_round=10)
источник

P

Polosataya in catboost_ru
Спасибо, заработало.
источник

P

Polosataya in catboost_ru
Еще вопрос по предикту. Я добавила eval_seteval_set, натренировала модель.  У меня показало bestIteration = 9. Если сделать predict, то он автоматически выберет лучшее число итераций, или это как-то явно указать надо?
источник

AD

Anna Veronika Dorogush in catboost_ru
Итерации нумеруются с нуля, поэтому 9 - это десятая итерация. Да, модель автоматически обрезается до лучшей итерации. Ну и лучше побольше итераций учить, зависит от датасета, но дефолтная 1000 итераций - норм.
источник

P

Polosataya in catboost_ru
Anna Veronika Dorogush
Итерации нумеруются с нуля, поэтому 9 - это десятая итерация. Да, модель автоматически обрезается до лучшей итерации. Ну и лучше побольше итераций учить, зависит от датасета, но дефолтная 1000 итераций - норм.
КОнечно. Я просто проверяю на маленькой, чтобы все работало.
источник

AD

Anna Veronika Dorogush in catboost_ru
я на всякий)
источник

P

Polosataya in catboost_ru
Anna Veronika Dorogush
я на всякий)
Спасибо. ))
источник
2019 February 26

SZ

Sasha Zhu in catboost_ru
Ребята, а пдскажите, пожалуйста (не нашла в документации) — существует ли возможность создания пайплайна, как в sklearn?
источник