Size: a a a

Natural Language Processing

2021 April 09

A

Andrei in Natural Language Processing
ну а сначала суммаризировать — не варик?
источник

IG

Ilya Gusev in Natural Language Processing
Воообще, например, это нужно чтобы книжки суммаризовывать. Только тут остаётся вопрос, зачем кому-то суммаризовывать книжки :)
источник

ni

n i in Natural Language Processing
лучшая суммаризация книжки это ее заголовок)
источник

A

Andrei in Natural Language Processing
часто получается что нет. и заголовки повторяются част
источник

Е

Егорка in Natural Language Processing
Скорее краткое описание
источник

IG

Ilya Gusev in Natural Language Processing
А так есть архитектуры, заточенные на более-менее длинные тексты, типа Longformer. А для супер-длинных текстов можно разные иеарархические модели использовать.
источник

FF

Futorio Franklin in Natural Language Processing
Ну по сути лонгформер просто отодвигает проблему не на n первых токенов, а на например 2*n
источник

IG

Ilya Gusev in Natural Language Processing
В любом случае, тут надо от задачи отталкиваться. Для суммаризации книг, например, совершенно точно нужно разные варианты иерархий использовать. Ну то есть условно "страница -> глава -> книга". Для страниц какая-нибудь supervised суммаризация, для остальных уровней unsupervised из того, что получилось на предыдущем уровне. Либо end-to-end иерерхическая модель, если данных прям много.
источник

DD

David Dale in Natural Language Processing
А что ты хочешь с этими новостями делать-то?

Сложно рекомендовать метод векторизации в отрыве от задачи.
источник

FF

Futorio Franklin in Natural Language Processing
Кластеризовать
источник

IG

Ilya Gusev in Natural Language Processing
для кластеризации как раз не нужны целые новости
источник

IG

Ilya Gusev in Natural Language Processing
там в конце обычно не влияющий на кластеризацию бэкграунд
источник

AA

Alexandra A in Natural Language Processing
А можно вопрос к Илье про Толоку для телеграма, определение тематик новостей: если не секрет, какой объем удалось разметить и во сколько это обошлось по деньгам и по времени?
источник

IG

Ilya Gusev in Natural Language Processing
В первом раунде "потратили 60$ на всё." В последующих чуть больше, но точно меньше 300$ на каждый. По времени что-то не очень большое, условно 10-20 человеко-часов на раунд.
источник

AA

Alexandra A in Natural Language Processing
а за 60$ сколько размеченных примеров получается? Там, вроде одно задание 1 цент минимум
источник

IG

Ilya Gusev in Natural Language Processing
в задании 10 примеров, при перекрытии в 5 толокеров получаем 120 страниц, то есть ~1200 уникальных примеров.
источник

IG

Ilya Gusev in Natural Language Processing
с меньшим перекрытием кратно больше примеров
источник

IG

Ilya Gusev in Natural Language Processing
ой, порядком ошибся
источник

IG

Ilya Gusev in Natural Language Processing
1200 страниц и 12к примеров
источник

IG

Ilya Gusev in Natural Language Processing
ну и никто 1 цент не платит, мы платили 2
источник