Надо стараться ибавиться от веток - умножением, или чем-то еще, типа cmove - если хочется хорошего кода, умножение это не дорого, а еще и отдельную линию пайплайна параллельного использует.
Тут кстати есть очень крутой трюк, для чисел с плавающей запятой. Компиляторы его не делают, и я его еще не проверил на бенчах - но думаю, там реально ускорить неускоряемое. Ну и я его нигде не видел.