В статье про TinyBert (секция 4.6 Effects of Mapping Function) описывалось, что модель, которая построена из нижних слоёв трансформера справляется лучше с задачами на грамматику, в то время как модель, построенная из верхних слоёв лучше справляется с более абстрактными задачами. Так что, скорее всего, так и есть