2) эмбеддинги и позициональные вектора просто суммируются, или с какими-то весовыми коэффициентами? как разрешаются коллизии, при которых слово А в позиции X имеет такой же вектор, как слово B в позиции Y?
а как тогда разрешаются коллизии? ведь наверняка сумма позиции и эмбеддинга неуникальна, т.к. той же сумме будет соответствовать другое слово, но в другой позиции
и нужно ли как-то предварительно нормализовать координаты позиционного и эмбеддингового векторов?
а как тогда разрешаются коллизии? ведь наверняка сумма позиции и эмбеддинга неуникальна, т.к. той же сумме будет соответствовать другое слово, но в другой позиции
и нужно ли как-то предварительно нормализовать координаты позиционного и эмбеддингового векторов?
Теоретически возможно, хотя маловероятно. Но а так всем пофиг)
мне кажется, что выученные даже хуже должны быть из-за того, что выученные не будут так легко обобщаться на неизвестные ранее длины последовательностей, но это чисто догадка
мне кажется, что выученные даже хуже должны быть из-за того, что выученные не будут так легко обобщаться на неизвестные ранее длины последовательностей, но это чисто догадка
Дак трансформер ванильный итак не работает с текстами длиннее 512 токенов