Фотка из Сагана как бы. Там должна быть свёртка в self-attention, если не положили в, значит положили после, если не положили после, значит неправильно имплементировали.
В ванильном трансформере, коим саган не является, блок состоит из self-attention + 2 линейных слоя.
https://habr.com/ru/post/486358/, приятная понятная статья.