С ReLU все просто: там производная всегда либо 1, либо 0. Вероятность того, что на вход ей придёт строго 0 - очень мала. Но даже если это и произойдёт, то считают, что производная в этом случае равна 0. Да, это скорее инженерный трюк, неверный со строго математической точки зрения, но при этом позволяющий совершать обучение сети градиентными методами