Если я правильно понял Валентина, речь шла о том, что в варианте (1) для всего обучающего корпуса BERT нужно прогнать вперёд 1 раз, а в варианте (2) - $число_эпох раз. И в этом смысле обучение модели поверх замороженного берта действительно может быть быстрее, чем дообучение берта. Если эпох много.
Но если исходить из ожидания, что применять модель мы будем на сильно большем количестве примеров, чем было при обучении, то это преимущество теряет смысл, т.к. берт + другая модель на инференсе будут отнимать больше времени, чем просто берт, и рано или поздно вычислительные ресурсы, сэкономленные при обучении, потратятся на дополнительные вычисления на инференсе.