Телеграмм чат группы natural_language

Коллеги, а какие алгоритмы кластеризации кроме Kmeans, можно использовать в следующей ситуации. Есть примерно 900к векторов, размерность вектора (100), вектор получается из w2v.

источник

16:09пожаловаться #3

m

mel kaye in Natural Language Processing

множество их

источник

16:09пожаловаться #4

T

Teemoor in Natural Language Processing

Anton Eryomin

Коллеги, а какие алгоритмы кластеризации кроме Kmeans, можно использовать в следующей ситуации. Есть примерно 900к векторов, размерность вектора (100), вектор получается из w2v.

hdbscan например

источник

16:09пожаловаться #5

T

Teemoor in Natural Language Processing

количество кластеров неопределено же?

источник

16:10пожаловаться #6

AE

Anton Eryomin in Natural Language Processing

к сожалению нет (

источник

16:10пожаловаться #7

AE

Anton Eryomin in Natural Language Processing

т.е. сейчас попыка на основе метрики силуета подобрать оптиальное количество

источник

16:10пожаловаться #8

AE

Anton Eryomin in Natural Language Processing

проблема в том, что обучении на 500 кластеров занимает порядка 6 часов

источник

16:11пожаловаться #9

AE

Anton Eryomin in Natural Language Processing

что просто ужасно

источник

16:11пожаловаться #10

D(

David (ddale) Dale in Natural Language Processing

Anton Eryomin

Коллеги, а какие алгоритмы кластеризации кроме Kmeans, можно использовать в следующей ситуации. Есть примерно 900к векторов, размерность вектора (100), вектор получается из w2v.

Мне нравится Birch. Он требует линейного времени и относительно небольшой (O(n_clusters), но с оговорками) памяти. Им можно твой миллион векторов разбить на много маленьких кластеров довольно быстро.
А дальше эти маленькие кластеры любым твоим любимым алгоритмом кластеризовать ещё раз в большие.

источник

16:11пожаловаться #11

AE

Anton Eryomin in Natural Language Processing

нужно попробовать, спасибо за наводку!

источник

16:12пожаловаться #12

DK

Denis Kirjanov in Natural Language Processing

affinity propagation обычно хорошо на таком заходит еще

источник

16:12пожаловаться #13

D(

David (ddale) Dale in Natural Language Processing

Anton Eryomin

нужно попробовать, спасибо за наводку!

Единственный подводный камень: если будешь брать имплементацию birch из sklearn, указывай compute_labels=False, иначе можешь вывалиться по памяти.
Как раз на шаге compute_labels он почему-то линейную память запрашивает. Поэтому надо обучать Birch без compute_labels, а дальше вычислять лейблы для твоих наблюдений методом predict с небольшими батчами.

источник

16:13пожаловаться #14

AE

Anton Eryomin in Natural Language Processing

спасибо большое за совет! сейчас буду пробовать

источник

16:15пожаловаться #15

I🍵

Iván 🍵 in Natural Language Processing

Denis Kirjanov

affinity propagation обычно хорошо на таком заходит еще

Ниче себе, я думал этот алгоритм для красоты придумали, судя по метрикам точности и времени работы, что я видел :))

источник

17:19пожаловаться #16

D(

David (ddale) Dale in Natural Language Processing

Iván 🍵

Ниче себе, я думал этот алгоритм для красоты придумали, судя по метрикам точности и времени работы, что я видел :))

ну вот мне тоже кажется, что для миллиона точек affinity propagation будет медленноват - вроде как он считает расстояние от каждой до каждой, а миллион в квадрате расстояний - это уже не шутки

источник

17:21пожаловаться #17

DK

Denis Kirjanov in Natural Language Processing

Iván 🍵

Ниче себе, я думал этот алгоритм для красоты придумали, судя по метрикам точности и времени работы, что я видел :))

Не, ну я миллионы и вправду не считал
Но кластеризация скажем тысяч новостей и отзывов была ок
И это был оффлайн-прогон для рисеча, а не онлайн продакшн

Но качество было лучше тех же k-means

источник

17:22пожаловаться #18

AE

Anton Eryomin in Natural Language Processing

Да к минс то в целом хорош, но уж больно медленно считается (((

источник

17:24пожаловаться #19

D(

David (ddale) Dale in Natural Language Processing

Anton Eryomin

Да к минс то в целом хорош, но уж больно медленно считается (((

Ещё, кстати, один хак.
Если ты готов пожертвовать качеством во имя скорости, то можно обучающие данные сократить по обоим измерениям: сделать случайную выборку из строк, и сократить размерность столбцов каким-нибудь PCA.
Получишь кластеры чуть похуже, зато сильно побыстрее.
А потом, кстати, можно заморочиться и этими кластерами уже полноценный k-means инициализировать - авось, он так быстрее сойдется.

источник

17:27пожаловаться #20