Я к тому, что не могу понять. Если хорошо предсказывается логарифм, то необязательно, что обратный перевод экспонированием и сравнение с исходными результатом даст хороший скор
Тупо не заложено в градиентом спуске такого, чтобы сойтись к предиктам хуже рандома или константы. Это потом на новых данных модель может быть "сколь угодно плохой" из-за переобучения
Вот это вот переписывается в виде отношения дисперсий, но при условии, что TSS = RSS + ESS, но оно будет выполняться в случае если МНК заюзано в линреге, вообще говоря там должно быть еще 2 ковариации
где-то ошибка в коде логарифмирование в случае линрега переводить модель из аддитивной в мултипликативную, ну типа Кобба-Дугласа. то есть отклик степенная функция от признаков, что не такой уж и редкий случай.
самый простой пример - площадь или объем чего-либо от каких-то линейных измерений.