тогда суммируем, в модели САГАНа в имплементации нет линеарного слоя после внимания, а есть свертка 4 на 4.
В имеж трансформере есть линеарный слоя после аттешена (в самом атеншене), а в декодер лаере есть лаер аттеншнена и двойной слой линеар.
В обычном аттеншен лаере есть один линеар.
Вот я и начал с этого, вопрос на счет интуитивного понимания трех этих вариантов. "обычный трансформер" это не интуиция, единственное что говорится в статье об этом, в картинке приложенной, но из этого интуитивно мне не очень понятно.
причем в САГАНЕ как я писал, эта свертка не связана с аттеншеном, она и не в его классе, в отличие от других статей, где dense, linear и тд инитиализированны в самом аттеншене.