Size: a a a

2019 November 18

AM

Alexander Manushin in catboost_ru
Vasily Ershov
зависит от задачи и метрик, которая нужна
oneVsAll это обычный one-vs-all, где обучаются бинарные классификаторы один против всех, но в катбусте будет одинаковая структура дерева, отличаться будут листья
MultiClass обучает logloss с softmax’ом для определения вероятностей
logloss у multiclass будет лучше, потому что он его и оптимизирует
а вот другие метрики не факт
Всем привет! Может кто-нибудь пояснить, какие оптимальные значения у функций потерь MultiClass и MultiClassOneVsAll (максимизируются или минимизируются они для получения лучшего качества модели в процессе обучения) и как они могут коррелировать с метриками TotalF1 и Accuracy при решении задачи многоклассовой классификации, в которой требуется предсказать метку класса? Пробовал обучать модель и с MultiClass и с MultiClassOneVsAll, потом проверял зависимости этих функций потерь и TotalF1 от количества итераций: у MultiClass и MultiClassOneVsAll минимумы в самом начале (меньше 300 итераций), затем они начинают монотонно расти, у TotalF1 - максимумы тоже в начале, но позже, чем минимумы у  MultiClass и MultiClassOneVsAll, примерно в районе 400 итераций, затем в обоих случаях значения метрик TotalF1 асимптотически убывают и вскоре практически никак не меняются. Из описания на сайте https://catboost.ai/docs/concepts/loss-functions-multiclassification.html не совсем понял как считаются MultiClass и MultiClassOneVsAll, т.к. нет пояснений что есть что в формулах. Я сразу скажу, что у меня пока не очень большой опыт в решении задач многоклассовой классификации, так что сорри, если что-то очевидное спрашиваю. Заранее спасибо!
источник

AM

Alexander Manushin in catboost_ru
Сам спросил, сам отвечу: Судя по best-score значениям в визуализации -  MultiClass и MultiClassOneVsAll минимизируются. Но я всё ещё хотел бы найти источник где можно было бы по подробнее узнать про то, как считаются эти метрики, больше интересует MultiClass.
источник
2019 November 19

AD

Anna Veronika Dorogush in catboost_ru
New CatBoost 0.19 release is out! With this release we support Text features for classification on GPU. Use text_features parameter to list all text features. Here is a tutorial for that: https://github.com/catboost/tutorials/blob/master/text_features/text_features_in_catboost.ipynb
источник

AY

Alexey Yurasov in catboost_ru
GPU 🥳
источник

АМ

Александр Мов in catboost_ru
Еее
источник

A

Alexandr in catboost_ru
Круто! А лемматизация какие языки поддерживает?
источник

AD

Anna Veronika Dorogush in catboost_ru
Пока без лемматизации
источник

AD

Anna Veronika Dorogush in catboost_ru
И токенизация пока довольно простая, но в ближайшее время это улучшим и туториал сделаем про это
источник

A

Alexandr in catboost_ru
то есть лучше препроцессинг пока самому делать?
источник

AD

Anna Veronika Dorogush in catboost_ru
пока да, но это ненадолго
источник

A

Alexandr in catboost_ru
ок, спасибо)
источник

V

Viktor in catboost_ru
а токенизацию какую планируете вообще?

к примеру, для инглиша более-менее спейси
для русского очень годно заходит раздел от наташи
источник

AD

Anna Veronika Dorogush in catboost_ru
Следите за релизами, там все будет!
источник

AS

Aidar Saifoulline in catboost_ru
Anna Veronika Dorogush
Привет, примеры есть в документации https://catboost.ai/docs/concepts/python-reference_catboostclassifier_fit.html
Также можно посмотреть в туториалах, там тоже много примеров: https://catboost.ai/docs/concepts/tutorials.html
Привет. Спасибо за крутой CatBoost. Сегодня выиграли Хакатон. Активно использовали CatBoost в своем решении. 👍
источник
2019 November 20

AD

Anna Veronika Dorogush in catboost_ru
Aidar Saifoulline
Привет. Спасибо за крутой CatBoost. Сегодня выиграли Хакатон. Активно использовали CatBoost в своем решении. 👍
Здорово! Поздравляю!
источник

ВС

Виктор Салимгареев in catboost_ru
Поздравляю, желаю дальнейших успехов!
источник

I

Ivan in catboost_ru
👍
источник

А

Андрей in catboost_ru
Здравствуйте. Обучил модели, загрузил их. По отдельности модели дают ответы в диапазоне от 0 до 4. После использования sum_models ответами станосятся целые числа [-4;4]. С чем это может быть связано?
источник

А

Андрей in catboost_ru
Андрей
Здравствуйте. Обучил модели, загрузил их. По отдельности модели дают ответы в диапазоне от 0 до 4. После использования sum_models ответами станосятся целые числа [-4;4]. С чем это может быть связано?
Решил проблему используя model._sum_models вместо catboost.sum_models
источник

OT

Oscar Tempter in catboost_ru
А кто нибудь делал обертку для catboost для использования в sklearn.feature_selection.RFE ?
источник