просто у меня все время в голове картинка из какой-то статьи, где word embeddings получаются из отдельных символов - делается convolution по 3, 4 и 5 символов и потом max pooling по ним и все склеивается вместе
ну вот то ты берёшь 5 символов и делаешь по ним эмбеддинг в CNN, а то ты берёшь BPE-код, соответствующий этим же 5 символам, и делаешь по нему эмбеддинг в трансформере...