Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.
Да, согласен, это была первая мысль.. Потом что-то потянуло в сторону бертов, use и doc2vec'ов) с этого и начали, что извлекли список ключевых слов кейбертом, но он извлёк не совсем так, как планировалось.. То есть это не объекты, из свойства и действия, а просто какие-то словосочетания, которые в тексте более весомы для модели.. А нам надо, чтобы допустим есть 2 статьи, в обеих пишут о том, что взяли определённую модель, обучили, провели определённые тесты.. Но в обеих статьях обьект(модель) и действия совпадают.. Вот это максимально похожие документы)