Телеграмм чат группы catboost

WaitForMeee (∩｀-´)⊃━... in catboost_ru

06:51пожаловаться #1

а у ну еще забыл добавить что

07:04пожаловаться #2

2021 May 16

PН

Привет. Мне нужно распознавать простую капчу, могу ли я для этого использовать катбуст и если да, то как именно? Мне нужно будет нарезать текст на символы?

20:52пожаловаться #3

Для картинок, скорее всего, катбуст не самый лучший выбор. Лучше посмотрите в сторону нейронных сетей (pytorch, tensorflow).

21:00пожаловаться #4

PН

А для чего он хорош? Я давно видел доклад яндекса о нём, не знаю что это за библиотека, но кажется что её смысл в поиске связей. Где стоит использовать катбуст? Например для предложения статей по мета информации стоит попробовать?

21:02пожаловаться #5

катбуст (и другие библиотеки градиентного бустинга) хорош в табличных данных. Например, предложения статей по метаинформации, да

21:05пожаловаться #6

PН

А какой типичный случай использования? Я собираю теги, описывающие о чём эта статья, скармливаю catboost и он перечисляет статьи с похожими тегами?

Какие именно данные обычно собирают для катбуста, что бы он мог предложить похожую статью которая понравится пользователю читающему текущую статью?

21:10пожаловаться #7

> А какой типичный случай использования? Я собираю теги, описывающие о чём эта статья, скармливаю catboost и он перечисляет статьи с похожими тегами?

Не уверен, что правильно понял этот сценарий. Кажется, здесь вам вообще не нужен catboost. Если у вас есть описание всех статей с их тегами, то catboost не нужен. Можно проще.

В этом случае, возможно, можно рассмотреть задачу многоклассовой классификации: у вас есть набор данных в котором каждая строка: статья и список тегов. Необходимо для новой статьи подобрать подходящие теги на основе предыдущих данных. К тому же в catboost уже есть возможность работы с текстовыми признаками (текст статьи)

> Какие именно данные обычно собирают для катбуста, что бы он мог предложить похожую статью которая понравится пользователю читающему текущую статью?
Далее пример "в лоб". В проде лучше так не делать, как мне кажется.
Например, у вас есть набор данных как в предыдущем примере (статья + набор тегов) для каждого пользователя и в каждой строке есть признак того, что статья "понравилась" пользователю:

article_id | article | science | nature | movie | user_id | like |
1          | text    |       1 |      0 |      0| 42      |  1   |
1          | text    |       1 |      0 |      0| 146     |  0   |

Обучаете бинарный классификатор на этих данных (признаки - article, science, nature, movie, user_id, таргет - like)

Сразу хочу сказать, что это очень приблизительный подход только для примера. На деле надо смотреть на данные.

21:24пожаловаться #8

То что вы хотите сделать — по сути рекомендательная система. Более полную информацию можно найти по такому запросу в вашей любимой поисковой системе

21:26пожаловаться #9

PН

Понятно. А для чего *используют* catboost?

Какой типичный случай его использования?

21:27пожаловаться #10

Задачи классификации, регрессии.

Рекомендательную систему тоже можно реализовать как задачу классификации.

21:34пожаловаться #11

PН

А что он может классифицировать? Только тексты?

Например у меня сайт с картинками котов, пользователи сами ставят теги, я хочу что бы в целях поддержания консистентности контента, мне приходили репорты о неправильно предложенных пользователями тегах.

Я могу использовать для этого катбуст? Если да, то как это делать, в случае с картинками?

Например, есть проверенный сет картинок, в котором теги стоят правильно, можно использовать его, если нужно

21:38пожаловаться #12

Combot in catboost_ru

Total messages: 11721

21:40пожаловаться #13

Текстовые, числовые данные.

Для классификации изображений обычно применяют нейронки, как я уже говорил выше.

То есть вам нужна сетка, которая будет предсказывать для каждой картинки подходящие теги.

21:44пожаловаться #14

PН

А какие конкретно задачи типичны для решения их катбустом?
Сталкиваясь с какой типичной задачей мне стоит сказать себе "говорят, это хорошо решается катбустом, выдели 20 часов что бы попробовать"?

Можешь привести не класс задач, а конкретные примеры использования? Например что ты решаешь этим инструментом?

21:51пожаловаться #15

PН

В каких именно фичах используешь его

21:52пожаловаться #16

Dima in catboost_ru

можно зайти на сайт катбуста и прочитать про него, и посмотреть примеры,которые там приведены и так же гугл никто не отменял

21:53пожаловаться #17

PН

Я смотрел доклад, но там не говорили о конкретных примерах применения

21:54пожаловаться #18

Dima in catboost_ru

т.к. конкретных примеров будет много;есть классы задач регрессия\классификация\ранжирование ,если задача сводится к этим классам, то можно использовать catboost, к любой задаче классического МЛ катбуст подойет

21:56пожаловаться #19

Estimate the unit sales of Walmart retail goods

@spamtarget примеры задач привёл @Daillek. Если говорить без детализации – любая задача классического МЛ.

Например, использовал в соревновании на kaggle https://www.kaggle.com/c/m5-forecasting-accuracy

Kaggle

M5 Forecasting - Accuracy