Size: a a a

2021 May 14

W(

WaitForMeee (∩`-´)⊃━... in catboost_ru
куда смотреть? что нажимать?
источник

W(

WaitForMeee (∩`-´)⊃━... in catboost_ru
а у ну еще забыл добавить что
источник
2021 May 16

Prikolist Начрэл... in catboost_ru
Привет. Мне нужно распознавать простую капчу, могу ли я для этого использовать катбуст и если да, то как именно? Мне нужно будет нарезать текст на символы?
источник

AS

Andrei Shirobokov in catboost_ru
Для картинок, скорее всего, катбуст не самый лучший выбор. Лучше посмотрите в сторону нейронных сетей (pytorch, tensorflow).
источник

Prikolist Начрэл... in catboost_ru
А для чего он хорош? Я давно видел доклад яндекса о нём, не знаю что это за библиотека, но кажется что её смысл в поиске связей. Где стоит использовать катбуст? Например для предложения статей по мета информации стоит попробовать?
источник

AS

Andrei Shirobokov in catboost_ru
катбуст (и другие библиотеки градиентного бустинга) хорош в табличных данных. Например, предложения статей по метаинформации, да
источник

Prikolist Начрэл... in catboost_ru
А какой типичный случай использования? Я собираю теги, описывающие о чём эта статья, скармливаю catboost и он перечисляет статьи с похожими тегами?

Какие именно данные обычно собирают для катбуста, что бы он мог предложить похожую статью которая понравится пользователю читающему текущую статью?
источник

AS

Andrei Shirobokov in catboost_ru
> А какой типичный случай использования? Я собираю теги, описывающие о чём эта статья, скармливаю catboost и он перечисляет статьи с похожими тегами?

Не уверен, что правильно понял этот сценарий. Кажется, здесь вам вообще не нужен catboost. Если у вас есть описание всех статей с их тегами, то catboost не нужен. Можно проще.

В этом случае, возможно, можно рассмотреть задачу многоклассовой классификации: у вас есть набор данных в котором каждая строка: статья и список тегов. Необходимо для новой статьи подобрать подходящие теги на основе предыдущих данных. К тому же в catboost уже есть возможность работы с текстовыми признаками (текст статьи)

> Какие именно данные обычно собирают для катбуста, что бы он мог предложить похожую статью которая понравится пользователю читающему текущую статью?
Далее пример "в лоб". В проде лучше так не делать, как мне кажется.
Например, у вас есть набор данных как в предыдущем примере (статья + набор тегов) для каждого пользователя и в  каждой строке есть признак того, что статья "понравилась" пользователю:

article_id | article | science | nature | movie | user_id | like |
1          | text    |       1 |      0 |      0| 42      |  1   |
1          | text    |       1 |      0 |      0| 146     |  0   |

Обучаете бинарный классификатор на этих данных (признаки - article, science, nature, movie, user_id, таргет - like)

Сразу хочу сказать, что это очень приблизительный подход только для примера. На деле надо смотреть на данные.
источник

AS

Andrei Shirobokov in catboost_ru
То что вы хотите сделать — по сути рекомендательная система. Более полную информацию можно найти по такому запросу в вашей любимой поисковой системе
источник

Prikolist Начрэл... in catboost_ru
Понятно. А для чего *используют* catboost?

Какой типичный случай его использования?
источник

AS

Andrei Shirobokov in catboost_ru
Задачи классификации, регрессии.

Рекомендательную систему тоже можно реализовать как задачу классификации.
источник

Prikolist Начрэл... in catboost_ru
А что он может классифицировать? Только тексты?

Например у меня сайт с картинками котов, пользователи сами ставят теги, я хочу что бы в целях поддержания консистентности контента, мне приходили репорты о неправильно предложенных пользователями тегах.

Я могу использовать для этого катбуст? Если да, то как это делать, в случае с картинками?

Например, есть проверенный сет картинок, в котором теги стоят правильно, можно использовать его, если нужно
источник

C

Combot in catboost_ru
Total messages: 11721
источник

AS

Andrei Shirobokov in catboost_ru
Текстовые, числовые данные.

Для классификации изображений обычно применяют нейронки, как я уже говорил выше.

То есть вам нужна сетка, которая будет предсказывать для каждой картинки подходящие теги.
источник

Prikolist Начрэл... in catboost_ru
А какие конкретно задачи типичны для решения их катбустом?
Сталкиваясь с какой типичной задачей мне стоит сказать себе "говорят, это хорошо решается катбустом, выдели 20 часов что бы попробовать"?

Можешь привести не класс задач, а конкретные примеры использования? Например что ты решаешь этим инструментом?
источник

Prikolist Начрэл... in catboost_ru
В каких именно фичах используешь его
источник

D

Dima in catboost_ru
можно зайти на сайт катбуста и прочитать про него, и посмотреть примеры,которые там приведены и так же гугл никто не отменял
источник

Prikolist Начрэл... in catboost_ru
Я смотрел доклад, но там не говорили о конкретных примерах применения
источник

D

Dima in catboost_ru
т.к. конкретных примеров будет много;есть классы задач регрессия\классификация\ранжирование ,если задача сводится к этим классам, то можно использовать catboost, к любой задаче классического МЛ катбуст подойет
источник

AS

Andrei Shirobokov in catboost_ru
@spamtarget примеры задач привёл @Daillek. Если говорить без детализации – любая задача классического МЛ.

Например, использовал в соревновании на kaggle https://www.kaggle.com/c/m5-forecasting-accuracy
источник