Size: a a a

2019 June 12

AD

Anna Veronika Dorogush in catboost_ru
и еще можно уменьшать модель другими способами, см FAQ в документации, там вопрос про размер модели есть
источник

AS

Andrey Stroganov in catboost_ru
Ещё пожелание: не могли бы вы добавить в command line версию обработчик unix-сигнала какого-нибудь типа USR1 для промежуточного снапшота на случай если забыл указать --snapshot-file перед запуском
источник

AD

Anna Veronika Dorogush in catboost_ru
Это достаточно много работы и усложнение интерфейсов. Лучше не забывать указывать снэпшоты.
источник

AS

Andrey Stroganov in catboost_ru
Anna Veronika Dorogush
Это достаточно много работы и усложнение интерфейсов. Лучше не забывать указывать снэпшоты.
Да понятно что лучше 🙂 Кстати, раз в сколько итераций он сохраняет? В доке не нашел. Или он просто на каждой итерации дописывает в конец файла новое деревце?
источник

AD

Anna Veronika Dorogush in catboost_ru
Точно не помню, вроде раз в 5 минут. Добавим в документацию, спасибо, что заметил, что там нет этого!
источник

AS

Andrey Stroganov in catboost_ru
Может он просто на каждой итерации дописывает в конец файла новое деревце?
источник

AD

Anna Veronika Dorogush in catboost_ru
Сохраняем раз во сколько-то времени. Либо 5 минут, либо 10
источник

AS

Andrey Stroganov in catboost_ru
Спасибо. А ещё заметил в документации все ссылки "CatBoost JSON model tutorial" ведут на https://github.com/catboost/tutorials/blob/master/apply_model/model_export_as_json_tutorial.ipynb которая 404 =(
источник

AD

Anna Veronika Dorogush in catboost_ru
Если замечаешь ошибки, лучше всего создавать issue, чтобы они потом не потерялись. Спасибо, что заметил! Если не сложно, открой issue
источник

AD

Anna Veronika Dorogush in catboost_ru
источник

NM

Námo Morimando in catboost_ru
!report
источник
2019 June 13

Д

Дмитрий in catboost_ru
Спасибо, теперь понял)
источник

Д

Дмитрий in catboost_ru
деревья подбираются последовательно
источник

Д

Дмитрий in catboost_ru
А вот подбор самого дерево параллелиться по данным (большое число вычислениц можно делать в много потоков)
источник
2019 June 14

P🐈

Pavel Tyavin 🐈 in catboost_ru
Что означает ошибка "blocks must be big enough to contain more than a single group" ?
источник

AK

Andrei Khropov in catboost_ru
При применении из CLI CatBoost читает датасет блоками не больше чем фиксированное число документов, при этом если данные по группам, то есть техническое ограничение, чтобы размер блока был не больше самой большой группы.

Это ограничение планируется исправить. 

Пока для применения, если это не расчет метрик, где учитываются группы, могу посоветовать передавать cd-файл где не будет колонок GroupId/QueryId и SubgroupId, а соответствующие колонки будут помечены как Auxiliary.
источник

AK

Andrei Khropov in catboost_ru
Ну или использовать python API, там данные загружаются целиком
источник

AS

Andrey Stroganov in catboost_ru
А где почитать про группы/подгруппы и зачем они нужны?
источник

AK

Andrei Khropov in catboost_ru
группы - просто можно сгруппировать данные по какому-то признаку
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Andrei Khropov
При применении из CLI CatBoost читает датасет блоками не больше чем фиксированное число документов, при этом если данные по группам, то есть техническое ограничение, чтобы размер блока был не больше самой большой группы.

Это ограничение планируется исправить. 

Пока для применения, если это не расчет метрик, где учитываются группы, могу посоветовать передавать cd-файл где не будет колонок GroupId/QueryId и SubgroupId, а соответствующие колонки будут помечены как Auxiliary.
Спасибо, помогло
источник