2) в декодере маска менее нужна, ибо атеншн там односторонний, а паддинг во всех популярных моделях делается справа, так что ненужные токены декодер при генерации не увидит. Без маски остаётся проблема, что pad tokens участвуют в вычислении лосса, но (а) пусть участвуют, это не мешает его для содержательных токенов минимизировать, и (б) чтобы зря через pad tokens градиенты не гонять, можно таргет в них выставить -100 - это магическое значение, которое при вычислении cross entropy в торче игнорируется.