потому что разные SIMD требуют оптимизации под конкретную реализацию (mac/neon например оч разные), и соответственно дают до двадцатикратного прироста производительности
Для сравнения процев думаю не надо. Если без оптимизаций будет один из быстрее, с оптимизациями вероятнее еще больше в выигрыше оставит.