Немного по поводу токенизации,
@alexkuk. Я провел следующий маленький эксперимент:
1) Взял первые 100к документов из датасета по ленте
2) Токенизировал их четырьмя токенайзерами: multilingual-bert-base-cased RuBERT, Ваш NewsRuBERT и обученный на 50к сабтокенов на 8 миллионах новостных статях (мой)
3) Посчитал mean и std от длин
multilingual-bert-base-cased: ~120к словарь, mean=362 std=186
RuBERT: ~120к словарь, mean=230 std=121
NewsRuBERT: ~50к словарь, mean=244 std=129
8kk news: ~50к словарь, mean=232 std=124
Итого, в принципе, создание новой токенизации имеет смысл, но вероятно не особо большой, ибо средняя длина документа у NewsRuBERT всего на ~5% больше чем в остальных случаях.
Хотя попробовать и посмотреть что выйдет, все же стоит. Ибо интересно.