Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.
Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.
Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).
Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна
Принцип предобработки текста понятен: Лемматизация, очистка от стоп слов и тд.
Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.
Помогите, пожалуйста.
Очень важный вопрос - размер текстов. Написано: "очень коротких" сколько это слов?
Я спрашиваю, потому что вижу очевидные проблемы с точки зрения точности в словах про малый размер.
Решал задачу с малыми текстами, но было 3 класса.