Я не питаю иллюзий об использовании эмбеддингов, составленных на корпусе новостей и попытках применить их на domain driven текстах))
Вопрос о подходах, которые применяются после их составления
А я бы сделал так.
Во-первых, взял бы какую-то большую модель русского языка. Например, bert_large от Сбера.
Дообучил бы его на имеющемся неразмеченном корпусе.
Разбил бы большой текст на чанки. Тут нужно проэкспериментировать с разбиением: по параграфам, по 512 токенов, либо - обучить наш Берт на задаче Next Sentence Prediction - чтобы разбиение было по каким-то законченным смысловым блокам.
Потом просуммаризировал бы каждый блок. Если это просто текст - то extractive summarization, если в тексте имеется прямая речь - abstractive summarization.
Вот, у нас уже получится суммаризация большого текста.
Но можно объединить все эти суммаризации, и сделать из них одну абстрактную суммаризацию. При этом сделать несколько версий суммирующего текста и выбрать наиболее подходящий, например, по косинусному расстоянию с большим текстом. Либо сравнивать не со всем большим текстом, а с "выжимкой из него" - извлечь ключевые слова (Rake, Yake или ещё как-нибудь), извлечь именованные сущности.
Ну, естественно, суммаризаторы нужно обучать на своих данных.
Потом большие модели можно отдистиллировать на что-то маленькое - например - на Электру.
Но лучше, конечно, почитать статьи с уже имеющимися решениями - наверное, кто-то уже придумал более оптимальное решение))