ну посмотри для начала что такое yttm, как там хранится словарь и как его оттуда вытащить, потом посмотри в каком формате слварь хранится в токенайзере гпт из трансформерс и сопоставь. Как минимум сорцы всего открыты и лежат на гитхабе, словари тоже, тут не нужно быть семь пядей во лбу датасаентистом чтобы осознать, как всё это работает и что куда нужно передавать