Size: a a a

2021 June 19

IL

Ivan Lyzhin in catboost_ru
Никита имел ввиду, что нужно быть внимательным, если у тебя в первых колонках пула записаны не фичи, а таргет, например. Допустим, у тебя в пуле порядок колонок такой: [target, num feature, cat_feature, cat_feature]. Тогда в cd файле ты кат фичи запишешь с номерами 2 и 3 (так как это номера колонок). А если. захочешь их заигнорить,  то должен будешь написать ignored_features=[1, 2] (так как тут нужны номера фичей).
источник

L

LS in catboost_ru
Спасибо, теперь дошло))
источник
2021 June 21

AC

Alexander C in catboost_ru
Завтра у нас онлайн доклад по МЛ может кому интересно: https://t.me/gonzo_ML/608
Telegram
gonzo-обзоры ML статей
🚀 Онлайн DS доклад от @SBERLOGA
👨‍🔬 Алексей Тихонов  (Яндекс) "Систематический анализ метрик кластерной близости"
⌚️ Вторник 22 июня, 19.00 по Москве

Доклад основан на работе https://arxiv.org/abs/1911.04773 недавно принятой на  ICML 2021. Существует много метрик (индексов) для сравнения различных кластеризаций одного датасета, и выбор лучшей из них для конкретной задачи остается открытой проблемой. Мы демонстрируем, что эта проблема имеет решающее значение: имеется много разногласий между метриками (индексами), эти разногласия действительно влияют на то, какие алгоритмы предпочтительнее в приложениях, и это может привести к снижению производительности в реальных системах. Мы предлагаем теоретическую основу для решения этой проблемы:  разрабатываем список желаемых свойств и проводим обширный теоретический анализ, чтобы проверить, какие индексы им удовлетворяют. Это позволяет сделать осознанный выбор: для конкретного приложения можно сначала выбрать свойства, которые желательны для задачи, а затем определить…
источник

MF

Maxim Faleev in catboost_ru
Привет!
Я тренирую одновременно несколько моделей в одной и той же директории, и они все логируются в catboost_info. Из за этого могут возникнуть ошибки в обучении?
Например, если модель записывает в папку данные, потом вторая модель что то записывает и первая считывает не то что нужно было
источник

IL

Ivan Lyzhin in catboost_ru
Привет! Ты можешь указать параметром train_dir собственную папку для обучения каждой модели.
источник

MF

Maxim Faleev in catboost_ru
Да, про это знаю, но по техническим причинам не сильно удобно создавать и удалять  (чтобы не захламлять память) каждый раз новую папку
Поэтому и интересуюсь, будет ли ошибка если писать все логи в одну папку
источник

MF

Maxim Faleev in catboost_ru
В целом, мне эти логи не нужны
Если use_best_model или early_stopping_rounds их не используют - то можно вообще не записывать ничего, если катбуст предлагает такую возможность)
источник

IL

Ivan Lyzhin in catboost_ru
Не использует. Можно запретить писать файлы опцией allow_writing_files
источник

MF

Maxim Faleev in catboost_ru
Понял, спасибо 🤗
источник
2021 June 22

L

LS in catboost_ru
Если использовать sum_models то потом получаю ошибки:

Catboost has no attribute score/predict_proba, а если сохранить эту модель(38гиг ) то получаю flatbuffers model verification failed
источник

L

LS in catboost_ru
Скор нельзя использовать? Predict proba тоже?
источник

SK

Stanislav Kirillov in catboost_ru
Это бага, так быть не должно
источник

SK

Stanislav Kirillov in catboost_ru
В том плане что флетбуфы не должны быть битыми
источник

SK

Stanislav Kirillov in catboost_ru
А вот со скором сложнее
источник

SK

Stanislav Kirillov in catboost_ru
Можно просто явно попросить predict(..., prediction_type="Probability")
источник

SK

Stanislav Kirillov in catboost_ru
Просто для суммы модели нет в общем случае понимания какой был лосс
источник

TG

T G in catboost_ru
1)какие значения может принимать learning_rate ? [a;b] ?
2) имеются ли какие то общепринятые методики дообучения? (опытным путем показалось, что с таким же мелким шагом обучения и таким большим кол-во деревьев (как основное обучение) дообучать нет смысла, хорошо работало увеличение learning rate и уменьшение iterations ...)
3) пример: обучаю 2к итераций с бэкапом модели, через 600 деревьев ram заканчивается ядро падает, проделываю предобработку дообучаю + 550 итараций, итд снижаясь до 300.
Вопрос- можно ли как то параметром очищать какой то хранимый ненужный буфер ? (Max_ctr =1 плохо работает...)
Почему на последние итерации требуется больше памяти?
источник
2021 June 23

L

LS in catboost_ru
Попробовать суммировать по отдельности, 1+1, sum+1? Попробую как серв освободится. Но что то мне кажется, что модели очень большие по 12+ гиг каждая, плюс много кат фичей, >50
источник

L

LS in catboost_ru
Спасибо, попробую так
источник

L

LS in catboost_ru
Init_model для cpu, а с памятью, либо датасет поменьше либо память докупать, либо попробовать избавится от ненужных фичей- облегчить датасет
источник