Rauan Akylzhanov
Привет, всем. Я пытаюсь понять почему внимание в seq2seq дает лучше результаты. Правильно ли, что self-attention позволяет увидеть какую-то зависимость между input tokens. Я могу прочитать, что такое внимание, но интуиция не понятна все еще. Кто нибудь шарит в этом ?
представь предложение Dog went to buy a coffee, it then went to the park. К чему относится it в данном предложении? Очевидно, что к dog для нас, но не для компьютера. Механизм attention как раз и нужен, чтобы это разгадывать