Всем привет
Закончил первую неделю второго курса и решил написать что-то полезное для себя.
Есть "сет", состоящий из примерно 200 записей, которые содержат 6 признаков и 2 свойства, которые я хочу предсказывать
Первая проблема, с которой я столкнулся - без масштабирования X стохастический градиентный спуск после примерно 100 иттераций приходит к весам nan. Если сделать масштабирование признаков, тогда всё ок. Но вот получил я веса для отмасштабированного сета, хочу задать какие-то свои признаки и получить свойства, которые будут ожидаться - мне масштабировать признаки по какому среднему и среднеквадратичному отклонению? Правильно понимаю, что тут нужно использовать среднее и среднеквадратичное отклонение обучающей выборки? (Без масштабирования методом np.linalg.solve, кстати, более или менее похожее на правду предсказание выходит)
Ну и собственно вторая проблема или скорее вопрос. Как мне улучшить модель прогнозирования? У меня не все свойства имеют линейную зависимость. Сейчас начал ковырять полиномиальную регрессионную зависимость - я в правильном направлении двигаюсь?