В таком случае:
Ну то что rugptxl не доступна через дефолтный Huggingface - это боль, понятно что спарс из дипспида и тд, но все же больно
Сильно заметно что исходные тренировочные данные зашумлены, все модели меньше large ужасно работают почти во всех стандартных nlp задачах сравнивал с gpt2 Майкрософта
Модели очень склонны учить xml-html разметку в отличие от англоязычных собратьев
Длинна последовательности без потери смысла - 400-500 токенов, дальше улетает в седло и все ппц