Здесь датасет 100т новостей Ид новости Ссылка на новость Ид категории Значение релевантности
У новости может быть несколько десятков категорий. Значение релевантности от 0.01 и выше до 1-2. Все что выше 0.1 это уже более-менее явная тематика статьи, все что ниже - это некая полезная примесь.
А кто конечный пользователь этой классификации? Категория "Политика" тоже условна. К примеру, если речь про распределение субсидий на лекарства по регионам. С одной стороны политика, с другой - здравоохранение. Пытаюсь понять конечную вашу цель.
Я бы на вашем месте перевел новости в эмбеддинги. К примеру, Fasttext. Понизил размерность через t-sne алгоритм. Дальше провел кластеризацию через k-means.