Телеграмм чат группы natural_language

в среднем расчитывается примерно 60 центов за час работы толокера

Futorio Franklin in Natural Language Processing

20:40пожаловаться #1

Я столкнулся с проблемой большого количества нерелевантных кластеров. В основном 2 типа, в первом новости одинаковые по начальной подстроке (к примеру какая-то плашка одного новостного издания или другой мусор) и из-за этого объеденяется много нерелеванта. Так же много кластеров объединяется по каким-то абстрактным правилам (типа города, локации, либо професси)

20:41пожаловаться #2

Так тут как раз проблема не в ширине окна модели. А в её умении игнорировать мусор и выделять важные аспекты.

20:42пожаловаться #3

Время требуется вот на что:
- написание инструкции, её валидация;
- наша собственная разметка небольшого семпла примеров;
- набор обучения, экзамена, ханипотов;
- подготовка и загрузка в Толоку данных;
- слежение за метриками разметки (качество на ханипотах, время выполнения и всякое такое);
- реагирование на сообщения толокеров;

20:47пожаловаться #4

Alexandra A in Natural Language Processing

Спасибо большое, интересно, мне интуитивно казалось, что объем разметки требуется больше. Наверное, для разового эксперимента 12 тысяч примеров можно даже своими силами разметить, чтобы не тратить время на освоение толоки

ולדימיר קון... in Natural Language Processing

20:50пожаловаться #5

וק

Я делал как то модельки на бертах (несколько стратегий усреднений результата от большого постэканного тензора) , потом моделька с суммаризацтей , и моделька с VAE с получением вектора меньшей размерности. Лучше всех была последняя но настолько затратная , что использовалась на самом деле первая

Futorio Franklin in Natural Language Processing

20:51пожаловаться #6

А как измеряли качество?

ולדימיר קון... in Natural Language Processing

20:52пожаловаться #7

וק

Там действительно, очень сложно уместить вектор огромной размерности в нечто хорошее в виде вектора малой размерности применительно к статьм. Насчёт новостей. Да наверное там не все важно. Но вот в медицине это не совсем так

20:53пожаловаться #8

Тут вопрос в соотношении затрат, да. 10к+примеров я бы точно в Толоку отдавал, мне после примерно 100 размеченных текстовых примеров уже плоховато.

ולדימיר קון... in Natural Language Processing

20:53пожаловаться #9

וק

Ну у меня не было задачи найти похожие , была задача классификации что проще. F1 брался и т п.

Николай Карпенко... in Natural Language Processing

20:54пожаловаться #10

НК

Подскажите, пожалуйста, какую кластеризацию использовать если на входе
Id документа №1
Id категория №1
Дробное значение релевантности
...
Id документа №1
Id категория №..X
Дробное значение релевантности

в наборе число документов может быть сотни тысяч, у каждого из документов десятки категорий

21:08пожаловаться #11

Кажется, это задача не кластеризации, а multilabel классификации. Или вообще регрессии (если предсказывать релевантность с MSE лоссом).
Или я что-то не так понял?

21:18пожаловаться #12

Релевантности для одного документа суммируются в единицу, или необязательно?

Николай Карпенко... in Natural Language Processing

21:19пожаловаться #13

НК

Релевантность уже подсчитана для каждой категории. Нужно как раз кластеризовать документы с похожими категориями и максимально близкими по релевантности.

21:33пожаловаться #14

Получается, что вектор релевантностей примерно полностью описывает всё, что нам нужно знать о документе?

Николай Карпенко... in Natural Language Processing

21:34пожаловаться #15

НК

Да

Егорка in Natural Language Processing

21:35пожаловаться #16

Я бы попробовал взять какую-нибудь l2 меру над векторами с релевантностью (вектор содержит все категории) и использовать DBSCAN

21:38пожаловаться #17

Плюсую.
Может быть, вектора сначала нужно будет нормализовать (так, чтобы сумма релевантностей или их квадратов была 1) - но может быть, и нет.

Егорка in Natural Language Processing

21:41пожаловаться #18

Только матрица смежности будет > 10^10 ячеек + в каждой ячейке по числу двойной точности ≈ 75 Гб, если я не ошибаюсь.
Нужно как-то оптимизировать.

Роман Некрасов... in Natural Language Processing

21:53пожаловаться #19

РН

DBSCAN избыточный. k-means или k-medoids. В любом случае автору нужно поупражняться в sklearn: https://scikit-learn.org/stable/modules/clustering.html