Size: a a a

2019 April 05

AD

Anna Veronika Dorogush in catboost_ru
Пока нельзя, надо поддержать. Сделай issue, пожалуйста.
источник

A

Andrei in catboost_ru
Anna Veronika Dorogush
Пока нельзя, надо поддержать. Сделай issue, пожалуйста.
ишью готов
источник
2019 April 06

А

Андрей in catboost_ru
Нет ли тут ошибки в последней колонке? Почему только на CPU?
https://catboost.ai/docs/concepts/python-reference_catboostclassifier_fit.html#python-reference_catboostclassifier_fit
источник

А

Андрей in catboost_ru
Или здесь имелось ввиду, что при shrink будет использоваться процессор?
источник

AD

Anna Veronika Dorogush in catboost_ru
Есть ошибка, поправим, спасибо! Если не сложно, сделай issue на гитхабе, чтоб не потерялось.
источник

А

Андрей in catboost_ru
Сделаю
источник

AC

Alexander C in catboost_ru
Anna Veronika Dorogush
Вот тут есть описания поддержанных биннингов https://catboost.ai/docs/concepts/binarization.html.
По умолчанию оптимизируем сумму логарифмов жадностью (GreedyLogSum).
Это быстро и хорошо работает. Можно динамикой точное решение находить (MaxLogSum и MinEntropy), это дольше, а работает на самом деле также. Еще можно Uniform например делать, тогда ты будешь смотреть на абсолютные значения фичей.
Еще раз спасибо и доброе утро. Не свовсем понял делается ли mean target по полученным бинам?
источник

AR

Alexander Rogachev in catboost_ru
Здравствуйте, друзья. Имеются датасеты пациентов, около 30 флоат фичей. При этом, количество примеров крайне мало, не более 200. Оценивал работу различных алгоритмов на этих данных (кросвал) . Наилучшим образом себя показали деревья. Catboost показал еще лучший результат. Но, очевидно, в такой ситуации велика вероятность переобучения. Подскажите, пожалуйста, может возможно как-то иначе оценить качество классификации или же лучше настроить работу catboost на столь малом датасете. Спасибо за помощь.
источник

SP

Stanislav Posypayko in catboost_ru
Подскажите, пожалуйста, не лежит ли где-нибудь в сети дистрибутивно-семантическая модель для русского языка обученная cat? Ну или кластеризатор.
Заранее спасибо
источник

АМ

Александр Мов in catboost_ru
Alexander Rogachev
Здравствуйте, друзья. Имеются датасеты пациентов, около 30 флоат фичей. При этом, количество примеров крайне мало, не более 200. Оценивал работу различных алгоритмов на этих данных (кросвал) . Наилучшим образом себя показали деревья. Catboost показал еще лучший результат. Но, очевидно, в такой ситуации велика вероятность переобучения. Подскажите, пожалуйста, может возможно как-то иначе оценить качество классификации или же лучше настроить работу catboost на столь малом датасете. Спасибо за помощь.
Малый размер деревьев - глубина и мало деревьев
источник

АМ

Александр Мов in catboost_ru
50 например
источник

АМ

Александр Мов in catboost_ru
Глубину например 3-6
источник

АМ

Александр Мов in catboost_ru
Иначе катбуст станет структурой памяти
источник

AK

Anton Kiselëv in catboost_ru
Stanislav Posypayko
Подскажите, пожалуйста, не лежит ли где-нибудь в сети дистрибутивно-семантическая модель для русского языка обученная cat? Ну или кластеризатор.
Заранее спасибо
Если ты про эмбеддинги (дистрибутивно-семантическая модель), то есть например здесь: https://rusvectores.org/ru/models/
cat — что это? CatBoost не стоит эмбеддинги для текстов, но он может использовать их как признаки. Кластеризацию CatBoost тоже не делает.
Лучше с этими вопросами в другой чат.
источник

SP

Stanislav Posypayko in catboost_ru
Anton Kiselëv
Если ты про эмбеддинги (дистрибутивно-семантическая модель), то есть например здесь: https://rusvectores.org/ru/models/
cat — что это? CatBoost не стоит эмбеддинги для текстов, но он может использовать их как признаки. Кластеризацию CatBoost тоже не делает.
Лучше с этими вопросами в другой чат.
Спасибо, на rusvectores я уже ходил. Просто думал, что есть уже готовые примеры деревьев для классификации запросов.
Не хочется делать обучающую выборку самому
источник
2019 April 07

VP

Victor Pchelin in catboost_ru
Доброе утро, подскажите, нормально, что обученный catboost clf на 3к деревьев занимает 12gb памяти??
источник

DL

Dmitri Lihhatsov in catboost_ru
Victor Pchelin
Доброе утро, подскажите, нормально, что обученный catboost clf на 3к деревьев занимает 12gb памяти??
Если есть много категориальных признаков с высокой cardinality, или если обучаетесь на GPU, то 12gb вполне нормально. Другой вопрос, стоит ли такую большую модель ставить в продакшн или лучше попробовать уменьшить размер.
источник

А

Андрей in catboost_ru
Добрый день, не получается запустить кросс валидацию. Подскажите, пожалуйста, в чем может быть проблема.
CatBoostError: catboost/cuda/methods/serialization_helper.cpp:42:  tensor : [cat: 4; ]  (ctr type Borders). Error: progress borders should be consistent: 1414 / 1414 0.0535714 0.107143 0.160714 0.214286 0.267857 0.321429 0.375 0.428571 0.482143 0.535714 0.589286 0.642857 0.696429 0.75 0.803571  vs 0.0555556 0.111111 0.166667 0.222222 0.277778 0.333333 0.388889 0.444444 0.5 0.555556 0.611111 0.666667 0.722222 0.777778 0.833333
источник

NK

ID:611170311 in catboost_ru
vsem privet, starting today learn catboost fro what to start?
источник

NK

ID:611170311 in catboost_ru
do you have link for video?
источник