Интересно, что у меня Google Benchmark показывает, что MSVC не первой свежести (19.15) генерирует код для обычного итеративного перемножения матриц (3 вложенных цикла), работающий в 5-6 раз быстрее нежели последний Clang из транка (пробовал также 11-ю версию). Если кому интересно, ссылка на godbolt, сам я не понимаю в чем магия
https://godbolt.org/z/rYWG9G (на 64x64, 256x256 разница тоже есть, но не такая сильная). Сходу в глаза бросается только, что Clang делает два imul'а и с памятью, а MSVC - один и с регистрами.