Телеграмм чат группы natural_language

Я хочу попробовать подойти с другой стороны к решению проблемы кластеризации новостей, что также у @FutorioFranklin

У меня условно суммаризация статьи сводится к десятку категорий/тематик и на их основе можно строить кластеры.

источник

22:02пожаловаться #4

Егорка in Natural Language Processing

Как я понял, число кластеров неизвестно заранее, поэтому я предложил алгоритм кластеризации, который не требует этого параметра.

источник

22:04пожаловаться #5

SМ

SancheZz Мов in Natural Language Processing

В тч плюс

источник

22:05пожаловаться #6

НК

Николай Карпенко... in Natural Language Processing

Если кто-то хочет попробовать, могу предоставить датасет

источник

22:05пожаловаться #7

РН

Роман Некрасов... in Natural Language Processing

Присылайте. В теории мы все мастаки. Любим свои алгоритмы. Но реальный мир суровее 😂

источник

22:06пожаловаться #8

David Dale in Natural Language Processing

Если проблема в огромном количестве документов, рекомендую BIRCH, он очень хорошо масштабируется.

источник

22:08пожаловаться #9

НК

Николай Карпенко... in Natural Language Processing

https://drive.google.com/file/d/1ZPLZ11pkfSMSi6IYnYmlkG7vE-0c-JFm/view?usp=sharing

Здесь датасет
100т новостей
Ид новости
Ссылка на новость
Ид категории
Значение релевантности

У новости может быть несколько десятков категорий. Значение релевантности от 0.01 и выше до 1-2. Все что выше 0.1 это уже более-менее явная тематика статьи, все что ниже - это некая полезная примесь.

источник

22:13пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

Merci

источник

22:14пожаловаться #11

НК

Николай Карпенко... in Natural Language Processing

Хотелось бы сравнить это метод с другими возможностями кластеризации документов.

источник

22:15пожаловаться #12

РН

Роман Некрасов... in Natural Language Processing

Категорию и релевантность алгоритмом или человеком расставляли? Если алгоритмом, то откуда уверенность, что появятся устойчивые структуры в кластерах?

источник

22:17пожаловаться #13

НК

Николай Карпенко... in Natural Language Processing

Уверенность полная, ибо я могу легко сейчас выбрать новости на тему Политика с высокой релевантностью

источник

22:19пожаловаться #14

РН

Роман Некрасов... in Natural Language Processing

А кто конечный пользователь этой классификации? Категория "Политика" тоже условна. К примеру, если речь про распределение субсидий на лекарства по регионам. С одной стороны политика, с другой - здравоохранение. Пытаюсь понять конечную вашу цель.

источник

22:21пожаловаться #15

НК

Николай Карпенко... in Natural Language Processing

В этом и суть кластеризации. Поскольку у меня статьи имеют десятки категорий, это позволяет в Политике сделать доп кластеры.

источник

22:23пожаловаться #16

РН

Роман Некрасов... in Natural Language Processing

Я бы на вашем месте перевел новости в эмбеддинги. К примеру, Fasttext. Понизил размерность через t-sne алгоритм. Дальше провел кластеризацию через k-means.

источник

22:25пожаловаться #17

НК

Николай Карпенко... in Natural Language Processing

Полагаю @FutorioFranklin нечто подобное уже делал и результат не удовлетворяет

источник

22:27пожаловаться #18

Anton in Natural Language Processing

То есть кластеры могут составлять иерархию?

источник

22:58пожаловаться #19

Anton in Natural Language Processing

Мне видится такая логика:
- классификация (разметка или zero-shot)
- векторизация (USE)
- кластеризация (тут уже на вкус и цвет)

источник

23:00пожаловаться #20