Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 March 15

К

Катя in NLP_RU - Natural Language Processing & Text Mining
Борис Добров
Для начала надо определиться, что такое "суммаризация" и что такое " большой текст".
Разные задачи, разные методы.
Структурный реферат, продающий анонс, тематическая, акторная или эмоциональная аннотация.
Даже то, что Вы описали разные типы, уже поможет составить более грамотные запросы для поиска
Спасибо
источник

IS

I Sh in NLP_RU - Natural Language Processing & Text Mining
Катя
Я не питаю иллюзий об использовании эмбеддингов, составленных на корпусе новостей и попытках применить их на domain driven текстах))

Вопрос о подходах, которые применяются после их составления
А я бы сделал так.
Во-первых, взял бы какую-то большую модель русского языка. Например, bert_large от Сбера.
Дообучил бы его на имеющемся неразмеченном корпусе.

Разбил бы большой текст на чанки. Тут нужно проэкспериментировать с разбиением: по параграфам, по 512 токенов, либо - обучить наш Берт на задаче Next Sentence Prediction - чтобы разбиение было по каким-то законченным смысловым блокам.

Потом просуммаризировал бы каждый блок. Если это просто текст - то extractive summarization, если в тексте имеется прямая речь - abstractive summarization.

Вот, у нас уже получится суммаризация большого текста.

Но можно объединить все эти суммаризации, и сделать из них одну абстрактную суммаризацию. При этом сделать несколько версий суммирующего текста и выбрать наиболее подходящий, например, по косинусному расстоянию с большим текстом. Либо сравнивать не со всем большим текстом, а с "выжимкой из него" - извлечь ключевые слова (Rake, Yake или ещё как-нибудь), извлечь именованные сущности.

Ну, естественно, суммаризаторы нужно обучать на своих данных.

Потом большие модели можно отдистиллировать на что-то маленькое - например - на Электру.

Но лучше, конечно, почитать статьи с уже имеющимися решениями - наверное, кто-то уже придумал более оптимальное решение))
источник

БД

Борис Добров... in NLP_RU - Natural Language Processing & Text Mining
Катя
Даже то, что Вы описали разные типы, уже поможет составить более грамотные запросы для поиска
Спасибо
Еще раз - главное ответить на вопрос, зачем нужен (в бизнес прцессах) результат реферирования.
источник

К

Катя in NLP_RU - Natural Language Processing & Text Mining
I Sh
А я бы сделал так.
Во-первых, взял бы какую-то большую модель русского языка. Например, bert_large от Сбера.
Дообучил бы его на имеющемся неразмеченном корпусе.

Разбил бы большой текст на чанки. Тут нужно проэкспериментировать с разбиением: по параграфам, по 512 токенов, либо - обучить наш Берт на задаче Next Sentence Prediction - чтобы разбиение было по каким-то законченным смысловым блокам.

Потом просуммаризировал бы каждый блок. Если это просто текст - то extractive summarization, если в тексте имеется прямая речь - abstractive summarization.

Вот, у нас уже получится суммаризация большого текста.

Но можно объединить все эти суммаризации, и сделать из них одну абстрактную суммаризацию. При этом сделать несколько версий суммирующего текста и выбрать наиболее подходящий, например, по косинусному расстоянию с большим текстом. Либо сравнивать не со всем большим текстом, а с "выжимкой из него" - извлечь ключевые слова (Rake, Yake или ещё как-нибудь), извлечь именованные сущности.

Ну, естественно, суммаризаторы нужно обучать на своих данных.

Потом большие модели можно отдистиллировать на что-то маленькое - например - на Электру.

Но лучше, конечно, почитать статьи с уже имеющимися решениями - наверное, кто-то уже придумал более оптимальное решение))
Спасибо!
источник
2021 March 16

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Коллеги у кого то есть русскоязычные сеты по типу: картинка ; описание того что на картинке?
источник
2021 March 29

VA

Vitaliy Ababiy in NLP_RU - Natural Language Processing & Text Mining
Alex Wortega
Коллеги у кого то есть русскоязычные сеты по типу: картинка ; описание того что на картинке?
Да, тоже нужны: схема - описание схемы. Даже думаем уже самим разметить. И можно ли при таком подходе научить рисовать схему/рисунок по описанию? Что почитать - посмотреть посоветуете?
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Vitaliy Ababiy
Да, тоже нужны: схема - описание схемы. Даже думаем уже самим разметить. И можно ли при таком подходе научить рисовать схему/рисунок по описанию? Что почитать - посмотреть посоветуете?
Тоже Clip делаете?
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Vitaliy Ababiy
Да, тоже нужны: схема - описание схемы. Даже думаем уже самим разметить. И можно ли при таком подходе научить рисовать схему/рисунок по описанию? Что почитать - посмотреть посоветуете?
Насколько я знаю попытки генерировать чертежи ничем хорошим не кончались
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Но
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
#чтивонаночь
Openai 3D

Короче говоря тут товарищи из open ai выкатили авторегрессор для построения 3дшек по точкам.
Пейпер
https://arxiv.org/abs/2002.10880
Колаб
https://colab.research.google.com/github/deepmind/deepmind-research/blob/master/polygen/sample-pretrained.ipynb
источник

VA

Vitaliy Ababiy in NLP_RU - Natural Language Processing & Text Mining
Alex Wortega
Тоже Clip делаете?
Не знаю что такое клип, делаем машинное мышление и коммуникации, передачи смыслов с помощью схематизации текста. :-)
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Есть вот такой поход основанный на авто регрессинонных моделях
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Vitaliy Ababiy
Не знаю что такое клип, делаем машинное мышление и коммуникации, передачи смыслов с помощью схематизации текста. :-)
Жуть какая. Каковы успехи?
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Схематизация текста это вообще как?
источник

VA

Vitaliy Ababiy in NLP_RU - Natural Language Processing & Text Mining
Alex Wortega
Жуть какая. Каковы успехи?
Добыли текста 60лекций с описанием 5 схем ;-)
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Ну тогда даже нет смысла пытаться)
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Даже на файнтюнинг не хватит
источник

VA

Vitaliy Ababiy in NLP_RU - Natural Language Processing & Text Mining
источник

VA

Vitaliy Ababiy in NLP_RU - Natural Language Processing & Text Mining
Alex Wortega
Даже на файнтюнинг не хватит
Что даже стрелочку с квадратиком не нарисует?
источник

AW

Alex Wortega in NLP_RU - Natural Language Processing & Text Mining
Vitaliy Ababiy
Что даже стрелочку с квадратиком не нарисует?
Не проще процедрно генерировать?
источник