Size: a a a

2019 August 20

BM

Blizhnikov Maxim in catboost_ru
понятно,что чем больше,тем лучше
источник

AF

Alexey Filimonov in catboost_ru
Blizhnikov Maxim
1500 строк норм?
зависит насколько они разные, вдруг все 1500 повторяются
источник

OS

Oleg Shapovalov in catboost_ru
норм, глубину надо только адекватную подобрать
источник

ИБ

Иван Брагин in catboost_ru
Все задачи разные, Обучись на 1500 строках, потом на 1400, 1300 ... постройки график метрики на тесте от количества строк и примерно будет понятно . Хотя это тоже не всю информацию даст
источник

ИБ

Иван Брагин in catboost_ru
Когда датасеты собираем своими силами делаем как то так. Но это опыт из картинок, не таблиц
источник

BM

Blizhnikov Maxim in catboost_ru
А нужно ли ,чтобы предикторы были нормально распределены?
источник

AD

Anna Veronika Dorogush in catboost_ru
New week - new CatBoost release! CatBoost 0.16.5 is out with boost_from_average parameter which might improve RMSE results and load_model from ONNX, which can be used to convert other boosting models to CatBoost to use its fast applier: https://github.com/catboost/catboost/releases/tag/v0.16.5
источник

SK

Serge Kovalev in catboost_ru
Подскажите пожалуйста по связке clickhouse и catboost, если в каталог с моделям, который указан в настрйоке <models_config> положить файл с новой моделью надо ли будет перезапускать clickhouse Или она сам подхватит ее при первом использовании?
источник

AD

Anna Veronika Dorogush in catboost_ru
@kochetovnicolai Ответишь?
источник

NK

Nikolai Kochetov in catboost_ru
Serge Kovalev
Подскажите пожалуйста по связке clickhouse и catboost, если в каталог с моделям, который указан в настрйоке <models_config> положить файл с новой моделью надо ли будет перезапускать clickhouse Или она сам подхватит ее при первом использовании?
Если добавился новый конфиг - то должен сам подхватится.
Если конфиг остался старый, а поменялась только сама модель - придется перезагрузить.

Надо бы добавить отдельную команду для презагрузки, как это сделано для словарей.
источник

SK

Serge Kovalev in catboost_ru
Николай, спасибо!
источник

SK

Serge Kovalev in catboost_ru
И еще вопрос, скорее уже Веронике, собираетель ли вы расширять класс задач, которые можно решать катбустом именно в кликхаусе, кроме задачи прогнозирования?
Сейчас обсуждаем с коллегой варинты остаться на кликхаусе+катбусте или уйти в питон+катбуст
источник

MK

Maxim Khrisanfov in catboost_ru
> Сейчас обсуждаем с коллегой варинты остаться на кликхаусе+катбусте или уйти в питон+катбуст

а зачем вам кликхаус раз вы можете загрузить все данные в питоне я что-то не понимаю?
источник

NK

Nikolai Kochetov in catboost_ru
Serge Kovalev
И еще вопрос, скорее уже Веронике, собираетель ли вы расширять класс задач, которые можно решать катбустом именно в кликхаусе, кроме задачи прогнозирования?
Сейчас обсуждаем с коллегой варинты остаться на кликхаусе+катбусте или уйти в питон+катбуст
Было бы интересно узнать, насколько практично кажется обучаться напрямую из ClickHouse в плане процессинга фичей.
Еще, насколько я понимаю, есть некоторые технические трудности для того, чтобы реализовать потоковое обучение, но точно не могу сказать.
источник

SK

Serge Kovalev in catboost_ru
Maxim Khrisanfov
> Сейчас обсуждаем с коллегой варинты остаться на кликхаусе+катбусте или уйти в питон+катбуст

а зачем вам кликхаус раз вы можете загрузить все данные в питоне я что-то не понимаю?
планируется что то вроде менеджмента датасетов и моделей, а не разовая задача с разовой загрузкой.
источник

MK

Maxim Khrisanfov in catboost_ru
думаю не самая лучшая идея, но попробовать можно)
источник

MK

Maxim Khrisanfov in catboost_ru
я использую кликхаус примерно так: много данных, которые я напрямую скормить модели не могу, я их агреггирую в кликхаусе до приемлемых размеров и уже выгружаю в tsv, потом этот файлик скармливаю катбусту
источник

AD

Anna Veronika Dorogush in catboost_ru
Stanislav ⚠️
Всем доброго времени, заранее извиняюсь что всю историю не листал, возможно кто то сможет в нескольких словах ответить на два вопроса:
1. Как все же использовать датасет содержащий помимо прочего фичи с плавающей точкой?
2. Стоит задача внедрить обученную на кэтбусте модель для предсказания в си (c), как это могло бы выглядеть?
Я не советую использовать конвертацию модели в код на си, потому что полученный код неэффективный, вместо этого надо использовать файл с моделью и применение на C++ https://catboost.ai/docs/concepts/c-plus-plus-api_dynamic-c-pluplus-wrapper.html
источник

AD

Anna Veronika Dorogush in catboost_ru
Stanislav ⚠️
Всем доброго времени, заранее извиняюсь что всю историю не листал, возможно кто то сможет в нескольких словах ответить на два вопроса:
1. Как все же использовать датасет содержащий помимо прочего фичи с плавающей точкой?
2. Стоит задача внедрить обученную на кэтбусте модель для предсказания в си (c), как это могло бы выглядеть?
А примеры обучения можно посмотреть в нашем репозитории с туториалами
https://github.com/catboost/tutorials
источник

S⚠

Stanislav ⚠️ in catboost_ru
Anna Veronika Dorogush
Я не советую использовать конвертацию модели в код на си, потому что полученный код неэффективный, вместо этого надо использовать файл с моделью и применение на C++ https://catboost.ai/docs/concepts/c-plus-plus-api_dynamic-c-pluplus-wrapper.html
Понял, спасибо.
источник