Size: a a a

Natural Language Processing

2021 April 09

IG

Ilya Gusev in Natural Language Processing
в среднем расчитывается примерно 60 центов за час работы толокера
источник

FF

Futorio Franklin in Natural Language Processing
Я столкнулся с проблемой большого количества нерелевантных кластеров. В основном 2 типа, в первом новости одинаковые по начальной подстроке (к примеру какая-то плашка одного новостного издания или другой мусор) и из-за этого объеденяется много нерелеванта. Так же много кластеров объединяется по каким-то абстрактным правилам (типа города, локации, либо професси)
источник

IG

Ilya Gusev in Natural Language Processing
Так тут как раз проблема не в ширине окна модели. А в её умении игнорировать мусор и выделять важные аспекты.
источник

IG

Ilya Gusev in Natural Language Processing
Время требуется вот на что:
- написание инструкции, её валидация;
- наша собственная разметка небольшого семпла примеров;
- набор обучения, экзамена, ханипотов;
- подготовка и загрузка в Толоку данных;
- слежение за метриками разметки (качество на ханипотах, время выполнения и всякое такое);
- реагирование на сообщения толокеров;
источник

AA

Alexandra A in Natural Language Processing
Спасибо большое, интересно, мне интуитивно казалось, что объем разметки требуется больше. Наверное, для разового эксперимента 12 тысяч примеров можно даже своими силами разметить, чтобы не тратить время на освоение толоки
источник

וק

ולדימיר קון... in Natural Language Processing
Я делал как то модельки на бертах (несколько стратегий усреднений результата от большого постэканного тензора) , потом моделька с суммаризацтей , и моделька с VAE с получением вектора меньшей размерности. Лучше всех была последняя но настолько затратная , что использовалась на самом деле первая
источник

FF

Futorio Franklin in Natural Language Processing
А как измеряли качество?
источник

וק

ולדימיר קון... in Natural Language Processing
Там действительно, очень сложно уместить вектор огромной размерности в нечто хорошее в виде вектора малой размерности применительно к статьм. Насчёт новостей. Да наверное там не все важно. Но вот в медицине это не совсем так
источник

IG

Ilya Gusev in Natural Language Processing
Тут вопрос в соотношении затрат, да. 10к+примеров я бы точно в Толоку отдавал, мне после примерно 100 размеченных текстовых примеров уже плоховато.
источник

וק

ולדימיר קון... in Natural Language Processing
Ну у меня не было задачи найти похожие , была задача классификации что проще. F1 брался и т п.
источник

НК

Николай Карпенко... in Natural Language Processing
Подскажите, пожалуйста, какую кластеризацию использовать если на входе
Id документа №1
Id категория №1
Дробное значение релевантности
...
Id документа №1
Id категория №..X
Дробное значение релевантности

в наборе число документов может быть сотни тысяч, у каждого из документов десятки категорий
источник

DD

David Dale in Natural Language Processing
Кажется, это задача не кластеризации, а multilabel классификации. Или вообще регрессии (если предсказывать релевантность с MSE лоссом).
Или я что-то не так понял?
источник

DD

David Dale in Natural Language Processing
Релевантности для одного документа суммируются в единицу, или необязательно?
источник

НК

Николай Карпенко... in Natural Language Processing
Релевантность уже подсчитана для каждой категории. Нужно как раз кластеризовать документы с похожими категориями и максимально близкими по релевантности.
источник

DD

David Dale in Natural Language Processing
Получается, что вектор релевантностей примерно полностью описывает всё, что нам нужно знать о документе?
источник

НК

Николай Карпенко... in Natural Language Processing
Да
источник

Е

Егорка in Natural Language Processing
Я бы попробовал взять какую-нибудь l2 меру над векторами с релевантностью (вектор содержит все категории) и использовать DBSCAN
источник

DD

David Dale in Natural Language Processing
Плюсую.
Может быть, вектора сначала нужно будет нормализовать (так, чтобы сумма релевантностей или их квадратов была 1) - но может быть, и нет.
источник

Е

Егорка in Natural Language Processing
Только матрица смежности будет > 10^10 ячеек + в каждой ячейке по числу двойной точности ≈ 75 Гб, если я не ошибаюсь.
Нужно как-то оптимизировать.
источник

РН

Роман Некрасов... in Natural Language Processing
DBSCAN избыточный. k-means или k-medoids. В любом случае автору нужно поупражняться в sklearn: https://scikit-learn.org/stable/modules/clustering.html
источник