Например, каждый поворот матриц - это создание нового массива флотов, причём заполнение их идёт через for цикл. Заменив на прямую запись через memcpy можно ускорить их создание в ~5 раз. А если не создавать каждый раз новый, а работая с ним сразу - в бесконечное количество раз. Но тогда матрицу надо будет делать мутабельной, а сейчас там любой метод иммутабельный, прям "по феншую" =\