Ничего ты в производительности не потеряешь( от вызовов и прочее) . А если ещё рубишь в через неон сможешь некоторые операции оптимизировать - счастье тебе будет ( а совсем бог, есть компьютерные шейдеры для этого используешь
У меня сейчас код Java. И он дает неудовлетворительное время. Я конечно верчу-мучу-оптимизирую буквально все что можно (что знаю). Но ниже 3 секунд не могу опуститься.
Если работаешь с arm - возьми их библиотеку compute Library - надо немного повозиться - но в ней не просто всё это есть, там ещё и через openCL - параллелят (А в жизни они такую возможность для разработчиков закрыли)