Здравствуйте, имеется вопрос по классификации текста.
Сейчас используем лог регрессию для классификации текстов. На вход модели подаём матрицу, полученную с помощью TF-IDF.
Заказчик спрашивает, можно ли самим задать набор слов, ключевых для каждого класса, что бы модель как бы обращала на них в первую очередь. В качестве реализации этой идеи мне приходит в голову только добавить к уже имеющийся матрицы TF-IDF one-hot фичи этих заранее известных слов. Типо, если слово встречается в тексте, то у соответствующей фичи проставляется флаг. С другой стороны, это слово и так уже должно присутствовать в матрице TF-IDF, тогда есть ли вообще смысл в этой отдельной фичи?... Если вообще смысл пытаться реализовывать подобную "помощь" для модели? И куда лучше копать для улучшения точности классификации текста?