Size: a a a

Natural Language Processing

2021 February 28

SP

Sebastian Pereira in Natural Language Processing
В longformer это на уровне двух уровней внимания реализовано.
источник

VR

Vladimir R in Natural Language Processing
Вопрос сразу как данную саммаризацию надлежит использовать, какие перед ней задачи и кто её конечный потребитель, человек или машина
источник

AW

Alex Wortega in Natural Language Processing
Sebastian Pereira
Коллеги, а кто как решает вопрос суммаризации больших и сверхбольших документов? У трансформеров ограничение по количеству входных токенов, когда делаешь «каскадом» суммаризацию или сумаризацию после LDA выходит не слишком результат.
А не вариант сформировать средний документ через вектора и его скормить?
источник

SP

Sebastian Pereira in Natural Language Processing
Vladimir R
Вопрос сразу как данную саммаризацию надлежит использовать, какие перед ней задачи и кто её конечный потребитель, человек или машина
Честно говоря исследовательский интерес в первую очередь. Хочу summary всех книг, которые ещё не прочёл)
источник

SP

Sebastian Pereira in Natural Language Processing
Alex Wortega
А не вариант сформировать средний документ через вектора и его скормить?
Что вы имеете в виду? В целом «средний документ» можно получить разными методами. Интересно применить именно модели с глубоким вниманием к «контексту» языка.
источник

SP

Sebastian Pereira in Natural Language Processing
На уровне статей - все ясно.
источник

D

Danila Milovanov in Natural Language Processing
Vladimir R
В гугл можно найти кучу, главное поместить туда фразу выше
Нашёл только решения для предобученных моделей. А мне нужно обучать с нуля. Может кстати есть какие-то полезные статьи для обучения моделей doc2vec.
источник

AW

Alex Wortega in Natural Language Processing
Sebastian Pereira
Что вы имеете в виду? В целом «средний документ» можно получить разными методами. Интересно применить именно модели с глубоким вниманием к «контексту» языка.
Идея говно, но

Берём среднее количество токенов  по всем текстам

Представляем тексты в виде векторов

Берём центроиды текстов + окрестность (эмпирически)

По ним ещё раз строим новый текст который кормим трансформеру

Сейчас пока писал понял что скорее всего это будет не читаемо, сорри за спам
источник

AW

Alex Wortega in Natural Language Processing
Danila Milovanov
Нашёл только решения для предобученных моделей. А мне нужно обучать с нуля. Может кстати есть какие-то полезные статьи для обучения моделей doc2vec.
Doc2vec слабые резы даёт
источник

D

Danila Milovanov in Natural Language Processing
А какие есть ещё варианты? Мне нужно обучить модель на большой выборке документов, и когда я буду давать в инпут модели какие-то вектора, нужно получать наиболее похожие документы, на которых обучалась модель.
источник

D

Danila Milovanov in Natural Language Processing
Что-то типа most_similar из gensim.
источник

FF

Futorio Franklin in Natural Language Processing
Danila Milovanov
А какие есть ещё варианты? Мне нужно обучить модель на большой выборке документов, и когда я буду давать в инпут модели какие-то вектора, нужно получать наиболее похожие документы, на которых обучалась модель.
Тут нужен любой sentence encoder и similarity search
источник

FF

Futorio Franklin in Natural Language Processing
Например faiss или annoy для ss и use в качестве энкодера.
источник

D

Danila Milovanov in Natural Language Processing
Спасибо большое, гляну в эту сторону. Если у кого есть ещё предложения, напишите пожалуйста, рассмотрю всё возмножное
источник

FF

Futorio Franklin in Natural Language Processing
Futorio Franklin
Например faiss или annoy для ss и use в качестве энкодера.
Создаём базу векторов документов в ss и находим ближайшего соседа для произвольного вектора
источник

D

Danila Milovanov in Natural Language Processing
Futorio Franklin
Создаём базу векторов документов в ss и находим ближайшего соседа для произвольного вектора
Спасибо
источник
2021 March 01

KL

Kir L in Natural Language Processing
друзья, я правильно понимаю, что Наташа умеет делать из Кирюши Кирилла, или нет? (
источник

A

Anton in Natural Language Processing
Danila Milovanov
Спасибо большое, гляну в эту сторону. Если у кого есть ещё предложения, напишите пожалуйста, рассмотрю всё возмножное
Делаешь многоступенчатую суммаризацию. На каждом этапе важно выбрать необходимые параметры генерации.
Чтобы не было одинаковых текстов сортируешь их по близости, используя тот же USE.
источник

AP

Alex Peresmeshnik in Natural Language Processing
Kir L
друзья, я правильно понимаю, что Наташа умеет делать из Кирюши Кирилла, или нет? (
Звучит так что после Наташи Кирюша вступает во взрослую жизнь
источник

KL

Kir L in Natural Language Processing
не без этого) чет я расстроился, похоже, нет ничего готового, придется работать
источник