Size: a a a

Natural Language Processing

2021 April 09

SancheZz Мов in Natural Language Processing
K means / k medoids работают ок когда кластера это выпуклые компакты
источник

SancheZz Мов in Natural Language Processing
А дбскан не обязательно это требует
источник

SancheZz Мов in Natural Language Processing
Даже правильнее,данные образуют выпуклые компакты
источник

НК

Николай Карпенко... in Natural Language Processing
Я хочу попробовать подойти с другой стороны к решению проблемы кластеризации новостей, что также у @FutorioFranklin

У меня условно суммаризация статьи сводится к десятку категорий/тематик и на их основе можно строить кластеры.
источник

Е

Егорка in Natural Language Processing
Как я понял, число кластеров неизвестно заранее, поэтому я предложил алгоритм кластеризации, который не требует этого параметра.
источник

SancheZz Мов in Natural Language Processing
В тч плюс
источник

НК

Николай Карпенко... in Natural Language Processing
Если кто-то хочет попробовать, могу предоставить датасет
источник

РН

Роман Некрасов... in Natural Language Processing
Присылайте. В теории мы все мастаки. Любим свои алгоритмы. Но реальный мир суровее 😂
источник

DD

David Dale in Natural Language Processing
Если проблема в огромном количестве документов, рекомендую BIRCH, он очень хорошо масштабируется.
источник

НК

Николай Карпенко... in Natural Language Processing
https://drive.google.com/file/d/1ZPLZ11pkfSMSi6IYnYmlkG7vE-0c-JFm/view?usp=sharing

Здесь датасет
100т новостей
Ид новости
Ссылка на новость
Ид категории
Значение релевантности

У новости может быть несколько десятков категорий. Значение релевантности от 0.01 и выше до 1-2. Все что выше 0.1 это уже более-менее явная тематика статьи, все что ниже - это некая полезная примесь.
источник

SancheZz Мов in Natural Language Processing
Merci
источник

НК

Николай Карпенко... in Natural Language Processing
Хотелось бы сравнить это метод с другими возможностями кластеризации документов.
источник

РН

Роман Некрасов... in Natural Language Processing
Категорию и релевантность алгоритмом или человеком расставляли? Если алгоритмом, то откуда уверенность, что появятся устойчивые структуры в кластерах?
источник

НК

Николай Карпенко... in Natural Language Processing
Уверенность полная, ибо я могу легко сейчас выбрать новости на тему Политика с высокой релевантностью
источник

РН

Роман Некрасов... in Natural Language Processing
А кто конечный пользователь этой классификации? Категория "Политика" тоже условна. К примеру, если речь про распределение субсидий на лекарства по регионам. С одной стороны политика, с другой - здравоохранение. Пытаюсь понять конечную вашу цель.
источник

НК

Николай Карпенко... in Natural Language Processing
В этом и суть кластеризации. Поскольку у меня статьи имеют десятки категорий, это позволяет в Политике сделать доп кластеры.
источник

РН

Роман Некрасов... in Natural Language Processing
Я бы на вашем месте перевел новости в эмбеддинги. К примеру, Fasttext. Понизил размерность через t-sne алгоритм. Дальше провел кластеризацию через k-means.
источник

НК

Николай Карпенко... in Natural Language Processing
Полагаю @FutorioFranklin  нечто подобное уже делал и результат не удовлетворяет
источник

A

Anton in Natural Language Processing
То есть кластеры могут составлять иерархию?
источник

A

Anton in Natural Language Processing
Мне видится такая логика:
- классификация (разметка или zero-shot)
- векторизация (USE)
- кластеризация (тут уже на вкус и цвет)
источник