
смотрю в статье attention is all you need, и сравниваю подход инкодера-декодера в трансформере и механизма внимания без него.
применение обычного атеншена насколько я видел в имплементациях обычных выглядит как input+gamma*attn(input), где гамма тоже обучаемый параметр.
Эксперементировал в аттеншеном для картинок, и увидел следующий эффект применяя слой целого декодера, а не просто самого аттеншена, в отличие от аттеншена, аупут декодера связал намного больше фичеров в картинке.
Насколько я понимаю, это именно результат FF, который состоит из Fully-Connected, верно ? то есть к вниманию по сути не имеет сильного отношения ?
Ну или се такие имеет, и можно сказать что FF как бы связывает весь аупут аттеншена воедино, что выразилось и в моем случае.
Почему я использовал только структуру Декодера, хотя трансформер состоит из инкодера-декодера и они предназначены для совместной, а не раздельной работе ?
Потому что я экспереметирую с ГАНом, ну и процесс генерации чем-то схож по сути на декодер.

тут вопрос на счет Feed-Forwarda, играет ли он ту роль которую написал и какую ли вообще ?
Подумал еще, в контексте nlp, там то нужен ембеддинг (допустим с картинками его роль играют предшествующие конволюции), то FF еще нужен чтобы ну как бы из embedded input в его embedded space сделать что-то толковое для декодера, для этого FF.
ну вот с картинками думаю также, не также ?
Просто эффект большего "связывания" есть, меньше варианса в генерации получилось. А с Аттеншеном без ФФ даже похоже больше, чем без, ну либо столько же, ожидаемый результат ?
P.S - естественно в контесте картинок и ГАНов речь идет об этих компонентах без Linear-SoftMax.