>Сходится ненормально Это не понять, надо по-хорошему запускать несколько раз с разными сидами для рандома Ну и можно уменьшить шаг оптимизатора, может он там осцилирует
к примету тут дело в gamma = 0.9999, если понихить то среда решается и лосы не жуткие, но периодически встречаю что бывают подобные постепенные взрывы лоса
как минимум потому что погрешность при значениях порядка 10^15 (для float32) составляет что-то около 6*10^7. То есть у вас градиенты - плюс минус миллион