Упражняюсь с cointegrated/rubert-tiny (в частности файтюню для NLI на пробном датасете), вроде работает, Accuracy в районе 95% (данных совсем мало, думаю, можно лучше на больших датасетах). Но вопрос другой. Заглянул в словарь модели, там 29,5 тыс. токенов и нет специфических терминов, типа ПБУ, НДС и т. п. (специфических бухгалтерских терминов, у меня профессиональная бухгалтерская и юридическая лексика). Я правильно понимаю, что модель эти токены "не видит"?