Если не ошибаюсь, то и логит и тобит выпуклые функции относительно параметров; это значит, что и лос выше выпуклый. Соответственно если решение существует, то условный SGD должен сойтись к нулю. Если же он не сходится достаточно долго, то скорее всего решения не существует (например твоя регрессор матрица X₁ is overdetermined)