фасттекст - это фактически улучшенный word2vec, только он берёт не целое слово, а разбивает его на "слоги", из-за чего получается, что модель может понимать слова, которых нет в словаре. Ну, и Трансформеры примерно так же слова разбивают.
Можно вообще взять BPE и на нём построить модель.
Но как модель будет обрабатывать куски кода - не знаю... Для неё же это будет новый язык. Я думаю, что лучше взять предобученную модель, прогнать по ней свой датасет, и посмотреть, что получится.