Во всех современных трансформерных моделях незнакомые слова разбиваются на комбинации знакомых токенов. Токен - это слово, буква, или несколько букв.
Типа так
print(tokenizer.tokenize('НДС')) # ['Н', '##Д', '##С']Символы ## означают, что этот токен является не началом слова, а продолжением.
Поэтому любое слово берт "видит", разница только в том, как сколько слов он их видит.