Size: a a a

2019 August 19

P🐈

Pavel Tyavin 🐈 in catboost_ru
Я бы на твоём месте посмотрел долю уникальных наборов товаров, чтобы понять, может ли эта фича из обучения помочь применению
источник

IP

Igor Petrov in catboost_ru
Pavel Tyavin 🐈
ладно. Тебе виднее, может у в датасете не так много разных наборов товаров, что кэтбуст наберет достаточно примеров в обучении.
много) всего товаров около 200. И каждый с каждым может быть
источник

P🐈

Pavel Tyavin 🐈 in catboost_ru
Ну тогда у тебя длинный хвост в распределении наборов, и в примнении нужного набора может просто не найтись
источник

IP

Igor Petrov in catboost_ru
Ну тогда идея только хешировать. Потому, что товары записаны так [123,1,45,78]
источник

IP

Igor Petrov in catboost_ru
и хеш уже как ID будет
источник

Аa

Андрей amber4eg in catboost_ru
Какие преимущества даёт использование Pool вместо pandas при обучении? Быстрее и меньше оперативной памяти надо?
источник

AD

Anna Veronika Dorogush in catboost_ru
1. Можно быстро читать из файла в много потоков. Это гораздо быстрее загрузки в датафрейм
2. Можно в одном классе хранить всю информацию о датасете - веса, группы, пары, таргет
источник

AD

Anna Veronika Dorogush in catboost_ru
3. Если есть категориальные фичи, то меньше памяти
источник

Аa

Андрей amber4eg in catboost_ru
Ага, спасибо.
А что лучше про пары почитать? Как это работает и как (и зачем) готовить?
источник

AD

Anna Veronika Dorogush in catboost_ru
лучше всего написано в туториале по ранжированию у нас на гитхабе в папке с туториалами
источник

Аa

Андрей amber4eg in catboost_ru
Спасибо
источник

S⚠

Stanislav ⚠️ in catboost_ru
Всем доброго времени, заранее извиняюсь что всю историю не листал, возможно кто то сможет в нескольких словах ответить на два вопроса:
1. Как все же использовать датасет содержащий помимо прочего фичи с плавающей точкой?
2. Стоит задача внедрить обученную на кэтбусте модель для предсказания в си (c), как это могло бы выглядеть?
источник
2019 August 20

СП

Степан Полохин in catboost_ru
Stanislav ⚠️
Всем доброго времени, заранее извиняюсь что всю историю не листал, возможно кто то сможет в нескольких словах ответить на два вопроса:
1. Как все же использовать датасет содержащий помимо прочего фичи с плавающей точкой?
2. Стоит задача внедрить обученную на кэтбусте модель для предсказания в си (c), как это могло бы выглядеть?
Полагаю на оба вопроса можно найти ответ в этом туториале:
https://github.com/catboost/catboost/blob/master/catboost/tutorials/apply_model/model_export_as_cpp_code_tutorial.md
источник

S⚠

Stanislav ⚠️ in catboost_ru
Благодарю, вроде то что нужно.
источник

IE

Igor Eliseev in catboost_ru
Добрый день! Подскажите пожалуйста обучалки по carboost для чайников😊 С чего начать? Как пользоваться? И т.д. Планирую кодить на Python. Заранее спс😉
источник

S⚠

Stanislav ⚠️ in catboost_ru
Igor Eliseev
Добрый день! Подскажите пожалуйста обучалки по carboost для чайников😊 С чего начать? Как пользоваться? И т.д. Планирую кодить на Python. Заранее спс😉
Добрый, посмотрите видео
https://youtu.be/xl1fwCza9C8
источник

IE

Igor Eliseev in catboost_ru
Спасибо 😊
источник

BM

Blizhnikov Maxim in catboost_ru
А сколько минимум нужно строк в датасете,чтобы обучить gbm ?
источник

OS

Oleg Shapovalov in catboost_ru
обычно чем больше тем лучше, теоретический минимум предполагаю, что 2
источник

BM

Blizhnikov Maxim in catboost_ru
1500 строк норм?
источник