Телеграмм чат группы catboost_ru страница 280

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

catboost_ru

681 membersпожаловаться на группу

2020 May 14

AV

Alexey [noxwell] Vet... in catboost_ru

Привет! =)

Вчера задал два вопроса)

1) Доброй ночи, коллеги! Решил воспользоваться долгожданной функцией utils.quantize и получил такое:

_catboost.CatBoostError: catboost/libs/data/load_and_quantize_data.cpp:52: Categorical features are not supported in block quantization

Правильно ли я понял, что киллер фича релиза не работает с Categorical features вообще? =(

Есть ли какие-то способы с этим работать (без предварительного one-hot и тп)?

Ну, и планируется ли поддержка категориальных фич в будущем? В ближней перспективе или дальней?

2) Как раз про отдельный метод quantize:

И в догонку второй вопрос. Я убрал категориальные фичи. Теперь у меня есть train и eval файлы по 22Г. Я запускаю quantize для них как в примере, и на подготовку расходуется 25Г RAM. После чего У видеокарт запрашивается 22Г памяти, которых в них нет – там 8Г + 6Г
Что мне следовало сделать, чтобы что-то заработало? =)
Можно ли как-то ограничить используемую память имеющимися на машинке ресурсами?

PS попробовал параметр quantize used_ram_limit, для которого нет описания. Получил лог на 60МБ из сообщений
Resource CPU RAM: functionWithResourceUsage.ResourceUsage(10000) > ResourceQuota(0)
пришлось прервать

PPS удалось запустить fit на CPU, но использована вся RAM. Выглядит так, будто quantize строит пулы на основе доступной памяти CPU. Но тогда это делает невозможным использование GPU, если его память на машине меньше, чем RAM. И скорость на CPU совершенно неприемлемая. Нужно плашки оперативки вынимать, чтобы все заработало? =) Поможет ли ulimit, например?

А сколько примерно объектов в датасете на 22G?

источник

14:42пожаловаться #1

AB

Alexey Belyaev in catboost_ru

Stanislav Kirillov

Ты пока не завел ишью под это дело?

Еще нет. У меня все еще была надежда, что не так что-то делаю(

источник

14:42пожаловаться #2

AB

Alexey Belyaev in catboost_ru

Alexey [noxwell] Vetrov

А сколько примерно объектов в датасете на 22G?

318 фич, ~125кк объектов

источник

14:48пожаловаться #3

AB

Alexey Belyaev in catboost_ru

Alexey [noxwell] Vetrov

А сколько примерно объектов в датасете на 22G?

Ошибся. ~25кк в датасете на 22Г.
125 - это в боевом, который даже не квантуется

источник

14:52пожаловаться #4

SK

Stanislav Kirillov in catboost_ru

правда странно, должно быть около 8ГБ памяти после квантования (по 1 байту на флотную фичу, 4 байта на таргет, 4 байта на вес, если он есть)

источник

15:30пожаловаться #5

SK

Stanislav Kirillov in catboost_ru

поправил, на 8гб, потому что вместо 318 прочитал 138)

источник

15:35пожаловаться #6

2020 May 16

MF

Maxim FromSiberia in catboost_ru

Добрый день!

CatBoost плохо определяет learning rate.

- Беру обуч мнво (с весами), 10 млн строк train, 10 млн строк test.
Скачать можно здесь: https://yadi.sk/d/5_N9iuv1YpTNfA
- Запускаю обучение командой

catboost-0.23.exe fit -f train10000.csv --cd catb.cd --test-set test10000.csv --delimiter , --loss-function Logloss -i 1000 --task-type CPU --train-dir trdir

- Вижу в логе

Learning rate set to 0.308254
...
bestTest = 0.3340715208
bestIteration = 109

Вопросы:

- По ощущениям learning rate 0.3 - это очень много. Верные ли ощущения?
- test10000.csv содержит веса, т.к. является частью исходного множества. Проблема ли это?
- Почему CatBoost подобрал такой learning rate, что были использованы только 110 итераций вместо ~1000? Это ожидаемо? Это плохой подбор learning rate? Как можно улучшить ситуацию?

Дополнительно: Если уменьшать объем train и test мнва, то leraning rate снижается: 10m -> 0.3, 1m -> 0.17, 100k -> 0.08.
Ожидаемо ли это? Как объяснить?

Спасибо.

View and download from Yandex.Disk

источник

12:51пожаловаться #7

IL

Ivan Lyzhin in catboost_ru

Автоматический learning_rate выставляется на основании нескольких эвристик, которые показали наилучшие результаты на нашем наборе датасетов. Эти эвристики учитывают loss_function, кол-во итераций и кол-во объектов в трейне. Естественно, подобрать эвристики для каждого датасета невозможно. Никаких гарантий наилучшего результата тут дать нельзя, но обычно результат получается достаточно неплохим и близким к идеальному. Тем не менее, всегда имеет смысл попробовать другие значения параметра в поисках лучшего качества. Если вам удастся подобрать learning_rate с результатом, который будет сильно лучше, нам интересно узнать, насколько он отличается от автоматического.

источник

14:50пожаловаться #8

MF

Maxim FromSiberia in catboost_ru

Автоматический learning_rate выставляется на основании нескольких эвристик, которые показали наилучшие результаты на нашем наборе датасетов. Эти эвристики учитывают loss_function, кол-во итераций и кол-во объектов в трейне. Естественно, подобрать эвристики для каждого датасета невозможно. Никаких гарантий наилучшего результата тут дать нельзя, но обычно результат получается достаточно неплохим и близким к идеальному. Тем не менее, всегда имеет смысл попробовать другие значения параметра в поисках лучшего качества. Если вам удастся подобрать learning_rate с результатом, который будет сильно лучше, нам интересно узнать, насколько он отличается от автоматического.

При автоматическом подборе лр учитываются ли веса инстансов в трейнсете?

источник

15:14пожаловаться #9

MF

Maxim FromSiberia in catboost_ru

Например, если 90% весов равны нулю, то кол-во объектов уже другое.

источник

15:14пожаловаться #10

IL

Ivan Lyzhin in catboost_ru

Не учитываются.

источник

15:16пожаловаться #11

MF

Maxim FromSiberia in catboost_ru

Не учитываются.

Не баг ли это?

источник

15:17пожаловаться #12

D

Denis in catboost_ru

Добрый день. Есть ли возможность сделать кастомный callback? Мне необходимо останавливать обучение по истечению определенного времени.

источник

16:00пожаловаться #13

MF

Maxim FromSiberia in catboost_ru

Не учитываются.

Учитываются ли веса в test множестве?

источник

16:01пожаловаться #14

IL

Ivan Lyzhin in catboost_ru

Веса тестового множества учитываются при расчете метрик.

источник

16:11пожаловаться #15

MF

Maxim FromSiberia in catboost_ru

/stat@combot

источник

16:12пожаловаться #16

C

Combot in catboost_ru

Total messages: 7203

источник

16:12пожаловаться #17

2020 May 17

ВЯ

Виталий Ястреб... in catboost_ru

/stat@combot

источник

10:15пожаловаться #18

C

Combot in catboost_ru

Total messages: 7209

источник

10:15пожаловаться #19

MF

Maxim FromSiberia in catboost_ru

Добрый день! Подскажите, пожалуйста, умеет ли catboost-0.23.exe обучаться на двух GPU, подключенных к одному серверу? Судя по опции --devices умеет. Есть ли ориентировочная информация о приросте производительности при подключении второго GPU? Стоит ли ожидать 2х ускорения? Спрашиваю, т.к. стоит вопрос о покупке второго GPU.

источник

15:56пожаловаться #20