Я столкнулся с проблемой большого количества нерелевантных кластеров. В основном 2 типа, в первом новости одинаковые по начальной подстроке (к примеру какая-то плашка одного новостного издания или другой мусор) и из-за этого объеденяется много нерелеванта. Так же много кластеров объединяется по каким-то абстрактным правилам (типа города, локации, либо професси)
Время требуется вот на что: - написание инструкции, её валидация; - наша собственная разметка небольшого семпла примеров; - набор обучения, экзамена, ханипотов; - подготовка и загрузка в Толоку данных; - слежение за метриками разметки (качество на ханипотах, время выполнения и всякое такое); - реагирование на сообщения толокеров;
Спасибо большое, интересно, мне интуитивно казалось, что объем разметки требуется больше. Наверное, для разового эксперимента 12 тысяч примеров можно даже своими силами разметить, чтобы не тратить время на освоение толоки
Я делал как то модельки на бертах (несколько стратегий усреднений результата от большого постэканного тензора) , потом моделька с суммаризацтей , и моделька с VAE с получением вектора меньшей размерности. Лучше всех была последняя но настолько затратная , что использовалась на самом деле первая
Там действительно, очень сложно уместить вектор огромной размерности в нечто хорошее в виде вектора малой размерности применительно к статьм. Насчёт новостей. Да наверное там не все важно. Но вот в медицине это не совсем так
Подскажите, пожалуйста, какую кластеризацию использовать если на входе Id документа №1 Id категория №1 Дробное значение релевантности ... Id документа №1 Id категория №..X Дробное значение релевантности
в наборе число документов может быть сотни тысяч, у каждого из документов десятки категорий
Кажется, это задача не кластеризации, а multilabel классификации. Или вообще регрессии (если предсказывать релевантность с MSE лоссом). Или я что-то не так понял?
Релевантность уже подсчитана для каждой категории. Нужно как раз кластеризовать документы с похожими категориями и максимально близкими по релевантности.