Size: a a a

2019 April 18

AD

Anna Veronika Dorogush in catboost_ru
вот так: simple_ctr='Borders:TargetBorderCount=2'
источник

SZ

Sasha Zhu in catboost_ru
Anna Veronika Dorogush
вот так: simple_ctr='Borders:TargetBorderCount=2'
Ещё раз спасибо)
источник

Аa

Андрей amber4eg in catboost_ru
Из занимательных наблюдений: у меня на одной задаче довольно быстро нарастает датасет для обучения. И вот чем он больше, тем бОльший lr хорошо заходит. на примерно 4М строк ставлю lr=0.6 и отлично всё. а на маленьких наборах приходится ставить на порядок меньшие значения, чтобы не было оверфита.
источник

AD

Anna Veronika Dorogush in catboost_ru
Ну да, на маленьких датасетах переобучение больше. Кроме того, чем больше датасет, тем больше итераций нужно с тем же лернинг рейтом.
источник

AD

Anna Veronika Dorogush in catboost_ru
Sasha Zhu
Ещё раз спасибо)
Еще можно one_hot_max_size немного повысить, он 2 по умолчанию
источник
2019 April 19

IP

Igor Petrov in catboost_ru
По catboost_evaluation нету документации?
источник

AE

Alex Ello in catboost_ru
Доброго времени суток. Может ли кто-то подсказать где почитать про подготовку данных? Сет от 20мл, ворочать с помощью pandas боль
источник

AK

Anton Kiselëv in catboost_ru
Alex Ello
Доброго времени суток. Может ли кто-то подсказать где почитать про подготовку данных? Сет от 20мл, ворочать с помощью pandas боль
Привет, у тебя какие фичи в датасете? Текст? Категории?
источник

A

Andrey in catboost_ru
SQL, r::data.table
источник

ИБ

Иван Брагин in catboost_ru
Alex Ello
Доброго времени суток. Может ли кто-то подсказать где почитать про подготовку данных? Сет от 20мл, ворочать с помощью pandas боль
источник

AE

Alex Ello in catboost_ru
Спасибо, пока изучу предложенные варианты
источник

AE

Alex Ello in catboost_ru
Anton Kiselëv
Привет, у тебя какие фичи в датасете? Текст? Категории?
Дата сет скорее категории
источник

AS

Alexander Sychikov in catboost_ru
Тогда приведи к типу category. Датасет сожмется по весу в несколько раз
источник

AK

Anton Kiselëv in catboost_ru
Alex Ello
Спасибо, пока изучу предложенные варианты
Попробуй ещё vaex и dask
источник

AE

Alex Ello in catboost_ru
Может кто в падаваны взять? 😅 есть вопросы по подготовке данных, не хочу в группу флудить
источник

AG

Artyom Gruzdev in catboost_ru
я бы тебя взял, но на эксперименты
источник

AS

Artem Seleznev in catboost_ru
Еще один ☝️ плюс к использованию категорий в dataframe. Можно сокращать размер данных в frame
источник

AS

Artem Seleznev in catboost_ru
источник

AS

Artem Seleznev in catboost_ru
источник

MK

Maxim Khrisanfov in catboost_ru
ну да, потому что заменяются числами)
источник