Всем привет! Имплементирую Seq2Seq модель, где енкодер и декодер - разные трансформеры. В статье говорится, что хорошая идея - это share weights between encoder and decoder, то есть тогда у енкодера и декодера будут одни и те же веса, так? Не оч понимаю, в чем это хорошо, кроме того, что уменьшает размер модели?