Тоже заметил такую проблему. Дело не только в объеме модели, но и в параметрах обучения - неизвестно как их подбирали. Внутри конфигов, модель, кстати, называется rugpt3{SIZE}_based_on_gpt2. Хотелось бы узнать что это значит. Мне кажется, тут большую роль играет относительная сложность английского и русского языков помноженная на более низкое качество обучающей выборки.