Телеграмм чат группы catboost

Спасибо.
Нашел такой пример: https://catboost.ai/docs/concepts/python-usages-examples.html#multiclassification
Он, кажется больше мне подходит. У меня также есть таблица, где есть столбы со строками и числами.
По сути поменял исходные данные. Если в eval_... подставляю существующую строку, то получаю 1, если меняю хотя бы один параметр то в ответ 0. Не могу понять в какую сторону смотреть.
В ML новичок, второй день. А задачу надо решить уже завтра

catboost.ai

Usage examples - CatBoost. Documentation

Train a classification model on GPU:from catboost import CatBoostClassifier train_data = [[0, 3], [4, 1], [8, 1], [9, 1]] train_labels = [0, 0, 1, 1] model = CatBoostClassifier(iterations=1000, task_type="GPU", devices='0:1') model.fit(train_data, train_labels, verbose=False)

источник

00:14пожаловаться #9

AB

Alexey Belyaev in catboost_ru

Приветы! В соседней группе интересовались катбустом для Go. Выложил свой форк https://github.com/tostrivetoseek/catboost-go. Работает с текущей версией cgo. Надеюсь, кому-нибудь еще пригодится.

Модификации исходной версии bourbaki:
- добавлено приведение всех указателей к char* перед передачей в либу и обратное приведение на стороне С, так как текущий cgo запретил передачу вложенных указателей;
- добавлена буферизация фич в единый массив перед передачей из go в либу, чтобы сборщик мусора (или будущие его версии) не пытались их растащить;
- добавлены методы для одиночного прогноза;
- упрощены сигнатуры.

GitHub

tostrivetoseek/catboost-go

Catboost Go Wrapper. Contribute to tostrivetoseek/catboost-go development by creating an account on GitHub.

источник

01:35пожаловаться #10

2019 November 13

DT

Denis Trofimov in catboost_ru

Alexey Belyaev

Приветы! В соседней группе интересовались катбустом для Go. Выложил свой форк https://github.com/tostrivetoseek/catboost-go. Работает с текущей версией cgo. Надеюсь, кому-нибудь еще пригодится.

Модификации исходной версии bourbaki:
- добавлено приведение всех указателей к char* перед передачей в либу и обратное приведение на стороне С, так как текущий cgo запретил передачу вложенных указателей;
- добавлена буферизация фич в единый массив перед передачей из go в либу, чтобы сборщик мусора (или будущие его версии) не пытались их растащить;
- добавлены методы для одиночного прогноза;
- упрощены сигнатуры.

GitHub

tostrivetoseek/catboost-go

Catboost Go Wrapper. Contribute to tostrivetoseek/catboost-go development by creating an account on GitHub.

это может быть интересно. use case для обучения и предсказания?

источник

23:28пожаловаться #11

AB

Alexey Belyaev in catboost_ru

Alexey Belyaev

Приветы! В соседней группе интересовались катбустом для Go. Выложил свой форк https://github.com/tostrivetoseek/catboost-go. Работает с текущей версией cgo. Надеюсь, кому-нибудь еще пригодится.

Модификации исходной версии bourbaki:
- добавлено приведение всех указателей к char* перед передачей в либу и обратное приведение на стороне С, так как текущий cgo запретил передачу вложенных указателей;
- добавлена буферизация фич в единый массив перед передачей из go в либу, чтобы сборщик мусора (или будущие его версии) не пытались их растащить;
- добавлены методы для одиночного прогноза;
- упрощены сигнатуры.

GitHub

tostrivetoseek/catboost-go

Catboost Go Wrapper. Contribute to tostrivetoseek/catboost-go development by creating an account on GitHub.

Ох, ну и ник у вас! Я думал у меня в глазах двоится 😂

источник

23:44пожаловаться #12

AB

Alexey Belyaev in catboost_ru

Alexey Belyaev

Приветы! Активно используем CatBoost в продакшене: прогнозируем качество RTB трафика до его покупки. Абсолютно нет вопросов к качеству обучения, однако, присутствуют некоторые неприятные моменты в эксплуатации:

1. На наборе из 7-10КК объектов, состоящих из ~40 категориальных фич (файл .csv на 4ГБ) может получиться бинарный классификатор весом в 13ГБ (300+ деревьев): приходится ограничивать количество деревьев 50-60ю. При этом модель умещается в 4ГБ, но граница порога принятися решения перестает быть такой четкой, как в полностью обученной модели в 13Г+.
Насколько я понимаю, дело во встроенной методике преобразования категориальных фич в числовые, так как подобного эффекта нет при работе с числовыми фичами.

Снизить размер моделей (примерно в 10 раз) помогает параметр model_size_reg, но он недоступен при обучении на GPU, также модели, обученные с ним, теряют в скорости применения примерно в 2-3 раза. Хотя, возможно, на скорость влияет увеличенное количество деревьев - не могу точно сказать.

Вопросы:
- Есть ли какие-либо способы существенно уменьшить модели при обучении на GPU без сокращения числа деревьев?
- В данный момент размер модели резко увеличивается с каждым новым деревом, что может говорить о том, что каждое дерево тащит за собой огромную таблицу преобразований. Возможно, имеет смысл вынести работу с категориальными фичами за скобки и проделывать один раз? Возможно, я тут глупость говорю, так как не в полной мере владею внутренным устройством инструмента. Поправьте)

2. Наш микросервис на Go, выполняющий роль аппликатора, обращается к вашей динамическую библиотеке libcatboostmodel.so для работы с моделями. Периодически модели необходимо обновлять. Тут возникает следующая проблема:

- вызов функций ModelCalcerDelete не приводит к полному освобождению памяти от старой модели (остается от 20% до половины),
- затем после вызова ModelCalcerCreate и LoadFullModelFromFile микросервис уже занимает памяти больше, чем мог бы при рестарте
- справедливости ради нужно отметить, что ингода при вызове ModelCalcerCreate и LoadFullModelFromFile часть неудаленной (от старой модели) памяти все таки освобождается (не вся)
- но в долгосрочном периоде работы (месяц, например) микросервис с катбустом может захватить все пространство сервера

Сталкивались ли вы с чем-то подобным при перезагрузке моделей без перезагрузки сервиса? Возможно, у вас все хорошо, и как-то влияет взимодействие с Go?

Писал тут в марте.

источник

23:57пожаловаться #13

AB

Alexey Belyaev in catboost_ru

Denis Trofimov

это может быть интересно. use case для обучения и предсказания?

Кейс в сообщении выше. Обучение на питоне -> cbm, аппликация на го

источник

23:57пожаловаться #14

AB

Alexey Belyaev in catboost_ru