Если честно, я сам никогда не проверял, но в некоторых местах люди писали, что ForwardDiff быстро теряет свою скорость по мере увеличения количества параметров. И в современных DL системах, где количество параметров зачастую измеряется миллионами у него получается очень низкая производительность.
Но это не точно, за что купил, за то продаю 😊
Думаю, что какие-то мысли можно ещё почерпнуть из
https://github.com/MikeInnes/diff-zoo