Операцию такой сложности как ты написал будет быстрее выполнить без параллельности вовсе, в обычном цикле for
Parallel тоже имеет затраты на деление и запуск параллельных операций
Сложность операций должна быть выше, чтобы параллель класс работал эффективно
Это первое
А второе - кто так блять делает бенчмарки
Первый код ясен пень выполняется медленнее потому что холодный старт
Надо использовать либу BenchmarkDotNet