Size: a a a

2020 July 24

L

LS in catboost_ru
Nikita Dmitriev
Вот слайд из одной из наших последних презентаций
спасибо) это интересно) 👍
источник

L

LS in catboost_ru
@nikitxskv вопрос про однородные и разнородные данные, классический пример по ML датасета Iris, по логике является однородными данными значит градиентный бустинг тут будет уступать нейронке или нет? не очень понятно. по мотивам стрима спрашиваю) у меня у самого получается однородный датасет, последовательность точек x1, x2,x3,...,xn, и в конце класс для этих точек
источник

L

LS in catboost_ru
свой датасет я могу разбавить категориальными признаками, например Peak, Valleys и тогда как я правильно понял у catboost будет больше возможностей определить класс после обучения, верно?
источник

ND

Nikita Dmitriev in catboost_ru
Дело в том, что датасет iris - учебный, в нем очень мало данных
Когда данных настолько мало - не особо важно какой ты алгоритм используешь, качество у всех должно получиться примерно одинаковое

На небольших датасетах с однородными признаками катбуст может работать лучше, так как он переобучается гораздо меньше нейронки, и в этом его преимущество

Да, все так, если признаки осмысленные и приносят пользу, то катбуст даст качество лучше, чем без этих признаков, а в нейронку ты просто так не добавишь категориальные признаки
источник

L

LS in catboost_ru
Nikita Dmitriev
Дело в том, что датасет iris - учебный, в нем очень мало данных
Когда данных настолько мало - не особо важно какой ты алгоритм используешь, качество у всех должно получиться примерно одинаковое

На небольших датасетах с однородными признаками катбуст может работать лучше, так как он переобучается гораздо меньше нейронки, и в этом его преимущество

Да, все так, если признаки осмысленные и приносят пользу, то катбуст даст качество лучше, чем без этих признаков, а в нейронку ты просто так не добавишь категориальные признаки
спасибо, очень полезно! ососбенно про категориальные признаки. Вопрос про датасет, какое кол-во строк является средним датасетом? 50к? 100к? 1кк я вот врядли соберу)
источник

ND

Nikita Dmitriev in catboost_ru
50к - нормально
Вообще чем больше - тем лучше)
источник

L

LS in catboost_ru
Nikita Dmitriev
50к - нормально
Вообще чем больше - тем лучше)
спасибо)) буду знать от чего отталкиваться)
источник

L

LS in catboost_ru
Nikita Dmitriev
Вот слайд из одной из наших последних презентаций
в каком из сервисов яндекса наиболее эффективно работает catboost? или таких сравнений не проводилось? а если была такая аналитика, то удалось ли выявить признаки из-за которых модель работает эффективнее?(т.е. больше фич или категориальных признаков или же лучшая обработка датасета)
источник

y

yithian in catboost_ru
Ничего себе вопросики.
источник

ND

Nikita Dmitriev in catboost_ru
LS
в каком из сервисов яндекса наиболее эффективно работает catboost? или таких сравнений не проводилось? а если была такая аналитика, то удалось ли выявить признаки из-за которых модель работает эффективнее?(т.е. больше фич или категориальных признаков или же лучшая обработка датасета)
а что такое наиболее эффективно? Задача-то у каждого сервиса своя их их особо не сравнишь друг с другом
источник

L

LS in catboost_ru
Nikita Dmitriev
а что такое наиболее эффективно? Задача-то у каждого сервиса своя их их особо не сравнишь друг с другом
например анализ ответов от Алисы и выдача в обычном поиске, будет ли пользователь дополнительно искать информацию в яндексе или останется удовлетворенным ответом от Алисы на свой запрос(например если взять группу простых вопросов, "кто президент такой то страны", если ли макдак в мурманске), но конечно да, сравнить сервисы между собой сложно
источник
2020 July 25

AN

Alex Nemoy in catboost_ru
привет.
задача классификации.
10 входов
model.get_feature_importance(prettified=True) выдает
 Feature Id  Importances
0        ps1    16.356856
1        pp1    13.814722
2        ps3    11.102747
3        pp2     9.866541
4        pp3     9.581090
5        pp4     9.267666
6        ps4     8.753953
7        ps2     7.570526
8        ps0     7.231413
9        pp0     6.454486
display(model.plot_tree(9))
рисует дерево только с глубиной 6- значит задействовано только 6 фич - а где остальные ???
источник

MK

Maxim Khrisanfov in catboost_ru
Alex Nemoy
привет.
задача классификации.
10 входов
model.get_feature_importance(prettified=True) выдает
 Feature Id  Importances
0        ps1    16.356856
1        pp1    13.814722
2        ps3    11.102747
3        pp2     9.866541
4        pp3     9.581090
5        pp4     9.267666
6        ps4     8.753953
7        ps2     7.570526
8        ps0     7.231413
9        pp0     6.454486
display(model.plot_tree(9))
рисует дерево только с глубиной 6- значит задействовано только 6 фич - а где остальные ???
привет, остальные фичи могут быть в других деревьях, это же ансамбль
источник

MK

Maxim Khrisanfov in catboost_ru
по-умолчанию глубина 6
источник

AN

Alex Nemoy in catboost_ru
поясните про ансамбль - выходит решает не последнее дерево а все до отрезанного ?
источник

MK

Maxim Khrisanfov in catboost_ru
да, конечно
источник

AN

Alex Nemoy in catboost_ru
спасибо -   тогда понятно
а почему глубина 6 ? например 100 фич - что лучше увеличить кол-во деревьев или глубину ? есть ли наработки по соотношению глубины и количества ?
источник

MK

Maxim Khrisanfov in catboost_ru
Alex Nemoy
спасибо -   тогда понятно
а почему глубина 6 ? например 100 фич - что лучше увеличить кол-во деревьев или глубину ? есть ли наработки по соотношению глубины и количества ?
кол-во деревьев
вот тут инфа по тюнингу https://catboost.ai/docs/concepts/parameter-tuning.html
источник

MK

Maxim Khrisanfov in catboost_ru
ты наверное путаешь решающее дерево с бустингом, в первом имеет смысл увеличивать глубину
источник

MK

Maxim Khrisanfov in catboost_ru
источник