Телеграмм чат группы natural_language

А так есть архитектуры, заточенные на более-менее длинные тексты, типа Longformer. А для супер-длинных текстов можно разные иеарархические модели использовать.

источник

20:29пожаловаться #6

Futorio Franklin in Natural Language Processing

Ну по сути лонгформер просто отодвигает проблему не на n первых токенов, а на например 2*n

источник

20:29пожаловаться #7

Ilya Gusev in Natural Language Processing

В любом случае, тут надо от задачи отталкиваться. Для суммаризации книг, например, совершенно точно нужно разные варианты иерархий использовать. Ну то есть условно "страница -> глава -> книга". Для страниц какая-нибудь supervised суммаризация, для остальных уровней unsupervised из того, что получилось на предыдущем уровне. Либо end-to-end иерерхическая модель, если данных прям много.

источник

20:33пожаловаться #8

David Dale in Natural Language Processing

А что ты хочешь с этими новостями делать-то?

Сложно рекомендовать метод векторизации в отрыве от задачи.

источник

20:34пожаловаться #9

Futorio Franklin in Natural Language Processing

Кластеризовать

источник

20:34пожаловаться #10

Ilya Gusev in Natural Language Processing

для кластеризации как раз не нужны целые новости

источник

20:34пожаловаться #11

Ilya Gusev in Natural Language Processing

там в конце обычно не влияющий на кластеризацию бэкграунд

источник

20:34пожаловаться #12

Alexandra A in Natural Language Processing

А можно вопрос к Илье про Толоку для телеграма, определение тематик новостей: если не секрет, какой объем удалось разметить и во сколько это обошлось по деньгам и по времени?

источник

20:35пожаловаться #13

Ilya Gusev in Natural Language Processing

В первом раунде "потратили 60$ на всё." В последующих чуть больше, но точно меньше 300$ на каждый. По времени что-то не очень большое, условно 10-20 человеко-часов на раунд.

источник

20:36пожаловаться #14

Alexandra A in Natural Language Processing

а за 60$ сколько размеченных примеров получается? Там, вроде одно задание 1 цент минимум

источник

20:37пожаловаться #15

Ilya Gusev in Natural Language Processing

в задании 10 примеров, при перекрытии в 5 толокеров получаем 120 страниц, то есть ~1200 уникальных примеров.

источник

20:38пожаловаться #16

Ilya Gusev in Natural Language Processing

с меньшим перекрытием кратно больше примеров