Телеграмм чат группы catboost

Вот слайд из одной из наших последних презентаций

спасибо) это интересно) 👍

15:30пожаловаться #1

L

@nikitxskv вопрос про однородные и разнородные данные, классический пример по ML датасета Iris, по логике является однородными данными значит градиентный бустинг тут будет уступать нейронке или нет? не очень понятно. по мотивам стрима спрашиваю) у меня у самого получается однородный датасет, последовательность точек x1, x2,x3,...,xn, и в конце класс для этих точек

16:13пожаловаться #2

L

свой датасет я могу разбавить категориальными признаками, например Peak, Valleys и тогда как я правильно понял у catboost будет больше возможностей определить класс после обучения, верно?

16:19пожаловаться #3

ND

Nikita Dmitriev in catboost_ru

Дело в том, что датасет iris - учебный, в нем очень мало данных
Когда данных настолько мало - не особо важно какой ты алгоритм используешь, качество у всех должно получиться примерно одинаковое

На небольших датасетах с однородными признаками катбуст может работать лучше, так как он переобучается гораздо меньше нейронки, и в этом его преимущество

Да, все так, если признаки осмысленные и приносят пользу, то катбуст даст качество лучше, чем без этих признаков, а в нейронку ты просто так не добавишь категориальные признаки

16:24пожаловаться #4

L

Дело в том, что датасет iris - учебный, в нем очень мало данных
Когда данных настолько мало - не особо важно какой ты алгоритм используешь, качество у всех должно получиться примерно одинаковое

На небольших датасетах с однородными признаками катбуст может работать лучше, так как он переобучается гораздо меньше нейронки, и в этом его преимущество

Да, все так, если признаки осмысленные и приносят пользу, то катбуст даст качество лучше, чем без этих признаков, а в нейронку ты просто так не добавишь категориальные признаки

спасибо, очень полезно! ососбенно про категориальные признаки. Вопрос про датасет, какое кол-во строк является средним датасетом? 50к? 100к? 1кк я вот врядли соберу)

16:29пожаловаться #5

ND

Nikita Dmitriev in catboost_ru

50к - нормально
Вообще чем больше - тем лучше)

16:29пожаловаться #6

L

50к - нормально
Вообще чем больше - тем лучше)

спасибо)) буду знать от чего отталкиваться)

16:30пожаловаться #7

L

Вот слайд из одной из наших последних презентаций

в каком из сервисов яндекса наиболее эффективно работает catboost? или таких сравнений не проводилось? а если была такая аналитика, то удалось ли выявить признаки из-за которых модель работает эффективнее?(т.е. больше фич или категориальных признаков или же лучшая обработка датасета)

17:23пожаловаться #8

y

yithian in catboost_ru

Ничего себе вопросики.

17:24пожаловаться #9

ND

Nikita Dmitriev in catboost_ru

LS

в каком из сервисов яндекса наиболее эффективно работает catboost? или таких сравнений не проводилось? а если была такая аналитика, то удалось ли выявить признаки из-за которых модель работает эффективнее?(т.е. больше фич или категориальных признаков или же лучшая обработка датасета)

а что такое наиболее эффективно? Задача-то у каждого сервиса своя их их особо не сравнишь друг с другом

17:56пожаловаться #10

L

а что такое наиболее эффективно? Задача-то у каждого сервиса своя их их особо не сравнишь друг с другом

например анализ ответов от Алисы и выдача в обычном поиске, будет ли пользователь дополнительно искать информацию в яндексе или останется удовлетворенным ответом от Алисы на свой запрос(например если взять группу простых вопросов, "кто президент такой то страны", если ли макдак в мурманске), но конечно да, сравнить сервисы между собой сложно

18:15пожаловаться #11

2020 July 25

AN

Alex Nemoy in catboost_ru

привет.
задача классификации.
10 входов
model.get_feature_importance(prettified=True) выдает
Feature Id Importances
0 ps1 16.356856
1 pp1 13.814722
2 ps3 11.102747
3 pp2 9.866541
4 pp3 9.581090
5 pp4 9.267666
6 ps4 8.753953
7 ps2 7.570526
8 ps0 7.231413
9 pp0 6.454486
display(model.plot_tree(9))
рисует дерево только с глубиной 6- значит задействовано только 6 фич - а где остальные ???

15:43пожаловаться #12

MK

Alex Nemoy

привет.
задача классификации.
10 входов
model.get_feature_importance(prettified=True) выдает
Feature Id Importances
0 ps1 16.356856
1 pp1 13.814722
2 ps3 11.102747
3 pp2 9.866541
4 pp3 9.581090
5 pp4 9.267666
6 ps4 8.753953
7 ps2 7.570526
8 ps0 7.231413
9 pp0 6.454486
display(model.plot_tree(9))
рисует дерево только с глубиной 6- значит задействовано только 6 фич - а где остальные ???

привет, остальные фичи могут быть в других деревьях, это же ансамбль

15:47пожаловаться #13

MK

по-умолчанию глубина 6

15:48пожаловаться #14

AN

Alex Nemoy in catboost_ru

поясните про ансамбль - выходит решает не последнее дерево а все до отрезанного ?

15:53пожаловаться #15

MK

да, конечно

15:54пожаловаться #16

AN

Alex Nemoy in catboost_ru

спасибо - тогда понятно
а почему глубина 6 ? например 100 фич - что лучше увеличить кол-во деревьев или глубину ? есть ли наработки по соотношению глубины и количества ?

16:01пожаловаться #17

MK

Parameter tuning - CatBoost. Documentation

Alex Nemoy

спасибо - тогда понятно
а почему глубина 6 ? например 100 фич - что лучше увеличить кол-во деревьев или глубину ? есть ли наработки по соотношению глубины и количества ?

кол-во деревьев
вот тут инфа по тюнингу https://catboost.ai/docs/concepts/parameter-tuning.html

catboost.ai

Do not use one-hot encoding during preprocessing. This affects both the training speed and the resulting quality.

16:03пожаловаться #18

MK

ты наверное путаешь решающее дерево с бустингом, в первом имеет смысл увеличивать глубину