Size: a a a

2019 February 03

t

tswr in catboost_ru
Мне было бы удобнее в Аркадии сначала сделать, самому на ci проверять, чтобы потом залить итоговое через гитхаб
источник

t

tswr in catboost_ru
Или такой путь нарушает что-то?
источник

AD

Anna Veronika Dorogush in catboost_ru
Одинаковый, про тестирование ответит Дима в чат скоро. Через аркадию будет все то же самое, только проще.
источник

DB

Dmitry Baksheev in catboost_ru
tswr
А как тестировать R?
ya make -tA должно запускать тесты. Альтернативно - можно зайти в catboost/R-package и запустить R CMD check . --no-manual --no-examples --no-multiarch
источник
2019 February 04

FZ

Fedor Zaytsev in catboost_ru
А можете подсказать на что CatboostEvaluation требует огромное количество места на диске? У меня датасет на ~4гб, делаю evaluation для одной фичи на 5 фолдах и при этом catboost забивает все 25 гигов диска на сервере. Сколько ему нужно тогда места?
источник

Аa

Андрей amber4eg in catboost_ru
В общем мои проблемы походу из-за OutOfMemory.
Есть какие-то способы уменьшить потребление памяти?
1) методу fit отдаю  pandas.dataframe. Если сделаю Pool - будет ли лучше?
2) система 64bit. Можно ли принудитенльо задать 32 битные вычисления?
3) категориальная фича одна. max_ctr_complexity в этом случае надо крутить вниз?
источник

AK

Andrei Khropov in catboost_ru
> Есть какие-то способы уменьшить потребление памяти?
https://github.com/catboost/catboost/issues/549#issuecomment-447330633 - pandas.dataframe будет работать эффективнее если в числовых колонках dtype=numpy.float32
источник

AK

Andrei Khropov in catboost_ru
(если что это для catboost 0.12.0+)
источник

Аa

Андрей amber4eg in catboost_ru
спасибо
источник

AK

Andrei Khropov in catboost_ru
также стоит использовать параметр used_ram_limit при обучении
источник

AK

Andrei Khropov in catboost_ru
> 2) система 64bit. Можно ли принудитенльо задать 32 битные вычисления?
В обучении для всех данных, которые занимают в памяти существенный объем, типы с фиксированной размерностью, так что это не влияет.
источник

AK

Andrei Khropov in catboost_ru
> 3) категориальная фича одна. max_ctr_complexity в этом случае надо крутить вниз?
источник

AK

Andrei Khropov in catboost_ru
Это тоже может помочь, да, но я бы сначала попробовал меры выше
источник

Аa

Андрей amber4eg in catboost_ru
Andrei Khropov
> 2) система 64bit. Можно ли принудитенльо задать 32 битные вычисления?
В обучении для всех данных, которые занимают в памяти существенный объем, типы с фиксированной размерностью, так что это не влияет.
Вот это меня запутало.  Кажется, что противоречит pandas.dataframe будет работать эффективнее если в числовых колонках dtype=numpy.float32
источник

AK

Andrei Khropov in catboost_ru
Нет не противоречит. У тебя могут быть 64 или 32 бит числа с плавающей точкой в колонках
источник

AK

Andrei Khropov in catboost_ru
при этом система может быть и 32 и 64 бит
источник

Аa

Андрей amber4eg in catboost_ru
а, ну да. Просто по умолчанию - 64 бита
источник

Аa

Андрей amber4eg in catboost_ru
все колонки снизил зо float32/int32. Вычисления идут чуть быстрее.
источник

Аa

Андрей amber4eg in catboost_ru
память... ну вроде пока не всю съел :)
источник

AK

Andrei Khropov in catboost_ru
Если перевести из int32 во float32 будет еще быстрее.
источник