как у меня слой с суммой весов 1 превратится в слой с суммой неизвестно?
правильно ли я понимаю, что в вашем понимании backprop-алгоритм на слое где-то в середине за один шаг сразу может сделает так, чтобы ошибка убиралась полностью или, что сумма выходов какого-то промежуточного слоя обязательно должна быть произвольной?
если это выход, то с помощью софтмакса никак. Если надо, чтобы на выходе такое было, то добавь еще слой без активации (с линейной активацией), и получай хоть какие значения (кроме бесконечностей). Заметь, софтмакс (в конце, посередине или еще где) никак не мешает прохождению ошибки. Ясен пень, если нужны неограниченные значение на выходе софтмакс туда только идиот поставит.
Взаимная энтропия в задаче классификации равна логистической функции потерь. Очевидно, что логистическая функция потерь имеет производную, причем эта функция дважды дифференцируемая - есть еще и вторая производная. Я даже постил когда-то пошаговый вывод (п.6): http://biostat-r.blogspot.com/2016/08/xgboost.html