Ну ограничение по лоссу существует только в рамках AutoModelForSequenceClassification, можно у них взять просто тушку и достроить любую свою голову. Исторически сложилось, что transformers - это не про обучение моделей, а про применение готовых. У них Trainer-то совсем недавно появился.