Size: a a a

2021 June 02

AK

Andrei Khropov in catboost_ru
На CPU. Пока CatBoost Spark на GPU не умеет работать: https://github.com/catboost/catboost/tree/master/catboost/spark/catboost4j-spark#known-limitations
источник

AK

Andrei Khropov in catboost_ru
Это ошибка https://github.com/catboost/catboost/issues/1650, она уже исправлена в мастере и сегодня должен выехать релиз куда это войдет
источник

EK

E K in catboost_ru
Спасибо, я на самом деле искал, но плохо 😂😭
источник

L

LS in catboost_ru
Спасибо🙂 тогда переспрошу по поводу дообучения. Обучил первую модель, обучал на gpu, так как cpu не тянет такой объём данных и долго работает. Вчера смотрел доки и понял что init_model под gpu не работает… остаётся только baseline, теперь вопрос, baseline от init_model сильно будет по качеству отличаться? Будет ли init_model на gpu в будущем?
источник
2021 June 03

TB

Taras B in catboost_ru
А кто может расшифровать ошибку
CatBoostError: catboost/private/libs/feature_estimator/feature_estimator.h:35: Attempt to call single feature writer on packed feature writer
? 0.25.1
источник

TB

Taras B in catboost_ru
На CPU нет такой ошибки
источник

T

Tonya in catboost_ru
Сегодня на митапе рассказывали, что catboost на spark можно для задачи ранжирования использовать.

Кто-нибудь пробовал? Может поделиться опытом?
источник

A

Alexey in catboost_ru
а есть видео доклада?
источник

SI

Sofi Ivanova in catboost_ru
YouTube
Воркшоп с Андреем Хроповым: Как запихнуть в CatBoost терабайты данных используя Apache Spark
Data Fest Online 2021
Big Data track https://ods.ai/tracks/bigdata-df2021

Воркшоп по использованию CatBoost на Apache Spark.

Андрей Хропов из Яндекса расскажет про то как устроен CatBoost для Apache Spark, чем он отличается от конкурентов, какие особенности запуска на Apache Spark вас ждут, а также научит Петра (куратора секции Big Data и руководителя школы DataGym.ru) запускать код, который запускает CatBoost для Apache Spark. После воркшопа вас ждет сессия вопросов и ответов от команды CatBoost.

Материалы воркшопа (презентация и Jupyter-ноутбук) доступны по ссылке: https://clck.ru/VGchv

Если вы хотите тренировать модели машинного обучения на больших данных, обязательно смотрите воркшоп и оставляйте комментарии под видео. За новостями CatBoost можно следить в Twitter (https://twitter.com/CatBoostML) и в Telegram (@catboost_ru и @catboost_en).

Сайт CatBoost: https://catboost.ai
Документация CatBoost: https://catboost.ai/docs
CatBoost на GitHub: https://github.com/catboost
Главная страница CatBoost для Apache…
источник

A

Alexey in catboost_ru
Спасибо большое!
источник
2021 June 04

K

K-S in catboost_ru
A как бустинговая L1 регуляризация вам поможет при отборе фич? Или это несвязанные вопросы?
источник

VS

Vitaly S in catboost_ru
Кажется я понял свою промашку, спасибо
источник

AK

Andrei Khropov in catboost_ru
> Что порекомендуете использовать для отбора фич

https://twitter.com/CatBoostML/status/1392962805855358977
источник

AK

Andrei Khropov in catboost_ru
Привет всем! Вышeл CatBoost 0.26.

New features
#972. Add model evaluation on GPU. Thanks to @rakalexandra.
Support Langevin on GPU
Save class labels to models in cross validation
#1524. Return models after CV. Thanks to @vklyukin
[Python] #766. Add CatBoostRanker & pool.get_group_id_hash() for ranking. Thanks to @AnnaAraslanova
#262. Make CatBoost widget work in jupyter lab. Thanks to @Dm17r1y
[GPU only] Allow to add exponent to score aggregation function
Allow to specify threshold parameter for binary classification model. Thanks to @Keksozavr.
[C Model API] #503. Allow to specify prediction type.
[C Model API] #1201. Get predictions for a specific class.

Breaking changes
#1628. Use CUDA 11 by default. CatBoost GPU now requires Linux x86_64 Driver Version >= 450.51.06 Windows x86_64 Driver Version >= 451.82.

Losses and metrics
Add MRR and ERR metrics on CPU.
Add LambdaMart loss.
#1557. Add survivalAFT base logic. Thanks to @blatr.
#1286. Add Cox Proportional Hazards Loss. Thanks to @fibersel.
#1595. Provide object-oriented interface for setting up metric parameters. Thanks to @ks-korovina.
Change default YetiRank decay to 0.85 for better quality.

Python package
#1372. Custom logging stream in python package. Thanks to @DianaArapova.
#1304. Callback after iteration functionality. Thanks to @qoter.

R package
#251. Train parameter synonyms. Thanks to @ebalukova.
#252. Add eval_metrics. Thanks to @ebalukova.

Speedups
[Python] Speed up custom metrics and objectives with numba (if available)
[Python] #1710. Large speedup for cv dataset splitting by sklearn splitter

Other
Use Exact leaves estimation method as default on GPU
[Spark] #1632. Update version of Scala 2.11 for security reasons.
[Python] #1695. Explicitly specify WHEEL 'Root-Is-Purelib' value

Bugfixes
Fix default projection dimension for embeddings
Fix use_weights for some eval_metrics on GPU - use_weights=False is always respected now
[Spark] #1649. The earlyStoppingRounds parameter is not recognized
[Spark] #1650. Error when using the autoClassWeights parameter
[Spark] #1651. Error about "Auto-stop PValue" when using odType "Iter" and odWait
Fix usage of pairlogit weights for CPU fallback metrics when training on GPU
источник

EK

E K in catboost_ru
Друзья, вопрос, Catboost + Spark, как поменять boosting-type? Enum который должен использоваться я нашел, а метода для параметра нет (версия 0.25)
источник

SK

Stanislav Kirillov in catboost_ru
Для распределенного обучения нет и, как мне видится, никогда не будет поддержки ордеред бустинга
источник

SK

Stanislav Kirillov in catboost_ru
Во первых, потому что с распределенным обучение цена становится слишком велика в терминах времени обучения, а во-вторых в терминах сложности реализации
источник

SK

Stanislav Kirillov in catboost_ru
Ну и плюс начиная с какого-то размера датасета, около 50-100к объектов, ордеред бустинг приносит совсем слабый профит по качеству, но сильно все замедляет
источник

TB

Taras B in catboost_ru
А для эмбеддингов C API появилось?
источник

BD

Bakhruz Dzhafarov in catboost_ru
Привет, можете подсказать: умеет ли shap переваривать текстовые фичи кетбуста? А то попытался применить - падает с ошибкой, мол я пытаюсь прокинуть в числовую фичу текст, хотя при обучении фича помечалась как текстовая
источник